YouTube视频转录
Gemini生成逐字
基于 ElevenLabs SFX API 的文本转音效工具,可将文字描述转换为掌声、笑声、呼啸声、环境音等短音频片段,支持输出 MP3 或转换为 WhatsApp 兼容的 OGG/Opus 格式。
安装与配置
ELEVENLABS_API_KEY 或 XI_API_KEY~/.clawdbot/clawdbot.json 中设置 skills."sound-fx".env.ELEVENLABS_API_KEYffmpeg(用于格式转换)生成音效
scripts/generate_sfx.sh --text "short audience applause" --out "/tmp/applause.mp3" --duration 1.2
转码为 WhatsApp 格式
ffmpeg -y -i /tmp/applause.mp3 -c:a libopus -b:a 48k /tmp/applause.ogg
常用示例
--text "short audience applause"--text "canned audience laughter"--text "fast whoosh"--text "soft rain ambience"见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 文本描述(音效类型)、可选时长参数、输出文件路径、ElevenLabs API密钥 |
| 输出 | MP3格式音频文件;可选OGG/Opus格式;控制台输出MEDIA路径标识 |
| 适用人群 | 内容创作者、聊天机器人开发者、短视频编辑者、需要标准音效的开发者 |
| 不包含 | 音乐旋律生成、长音频合成、实时音频流、声音克隆、视频生成 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/javicasper/sound-fx/SKILL.md
来源类型:GitHub 仓库