多语言语音合成
九角色十一语种高质量
本技能通过AssemblyAI API将音频或视频文件转换为文字,支持本地文件上传或公网URL,可导出字幕(SRT/VTT)、段落、句子等多种格式。
快速将会议录音、培训视频、访谈素材转化为可用文字,释放人工听写成本。支持字幕直接输出,满足内容发布合规要求;结构化段落便于后续编辑归档,加速知识沉淀与传播效率。
落地案例:市场部上传产品发布会录像,自动生成带时间轴的字幕文件用于多平台分发;HR整理远程面试录音,按句子结构导出文本存档;法务团队批量处理合同谈判音频,获取可检索的段落化文档备查。
安装要求
ASSEMBLYAI_API_KEY配置步骤
在 ~/.clawdbot/clawdbot.json 中添加:
{"skills":{"entries":{"assemblyai":{"enabled":true,"apiKey":"YOUR_ASSEMBLYAI_KEY","env":{"ASSEMBLYAI_API_KEY":"YOUR_ASSEMBLYAI_KEY"}}}}}
基础转写
node {baseDir}/assemblyai.mjs transcribe "./audio.mp3"
node {baseDir}/assemblyai.mjs transcribe "https://example.com/audio.mp3" --out ./result.txt
导出字幕
node {baseDir}/assemblyai.mjs transcribe "./video.mp4" --export srt --out ./sub.srt
从已有ID导出
node {baseDir}/assemblyai.mjs subtitles <transcript_id> vtt --out ./sub.vtt
node {baseDir}/assemblyai.mjs paragraphs <transcript_id> --out ./para.txt
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 本地音频/视频文件路径、公网媒体URL、AssemblyAI API密钥、可选高级参数JSON |
| 输出 | 纯文本转写、SRT/VTT字幕、JSON完整数据、段落/句子结构化文本 |
| 适用人群 | 会议记录整理者、视频字幕制作者、播客运营者、质性研究访谈分析人员 |
| 不包含 | 实时流式转写、视频画面分析、自动翻译、离线识别能力 |
--out 参数防止输出截断ASSEMBLYAI_BASE_URL 为EU节点原始链接:https://github.com/openclaw/skills/tree/main/skills/tristanmanchester/assemblyai-transcribe/SKILL.md
来源类型:GitHub仓库