语音合成命令行工具

1小时前更新 1 00
语音合成命令行工具语音合成命令行工具
语音合成命令行工具

技能简介

sag 是一个基于 ElevenLabs API 的文本转语音命令行工具,提供类似 macOS say 命令的使用体验,支持本地音频播放与文件导出。

业务背景

为内容创作者、开发者和客服团队提供轻量级语音生成能力,无需搭建复杂系统即可将文本快速转为自然语音。支持多角色声音切换与情绪控制,适用于播客制作、产品原型演示、自动化通知等场景,降低专业配音门槛与外包成本。

落地案例:市场团队撰写了一篇产品博客,希望生成音频版本供用户收听。运营人员使用 sag 工具,输入文章正文并选择沉稳的"Roger"声线,通过方括号标签标记段落停顿,一键导出 MP3 文件后上传至播客平台。整个过程无需录音设备或剪辑软件,10 分钟完成从文本到成品的转化。

能做什么

  • 将文本即时转换为语音并本地播放
  • 切换多种预设声音角色
  • 通过音频标签控制语气、情绪与停顿
  • 导出 MP3 音频文件用于分享或嵌入
  • 针对长文本优化发音与断句

使用说明

安装步骤

  1. 安装 sag:
    brew install steipete/tap/sag
  2. 配置 API 密钥:
    export ELEVENLABS_API_KEY="your-api-key"

    或设置 SAG_API_KEY 作为备选

基础用法

  • 快速朗读:sag "Hello there"
  • 指定声音:sag speak -v "Roger" "Hello"
  • 查看可用声音:sag voices
  • 导出文件:sag -v Clawd -o /tmp/output.mp3 "Your text"

模型选择

  • 默认(富有表现力):eleven_v3
  • 稳定多语言:eleven_multilingual_v2
  • 快速响应:eleven_flash_v2_5

音频标签(v3 模型)

在行首添加标签控制效果:[whispers][shouts][sings][laughs][excited][sarcastic] 等,配合 [pause][short pause][long pause] 控制节奏。

输入与输出

见下方输入与输出表格。

项目内容
输入文本字符串;声音ID(ELEVENLABS_VOICE_ID 或 -v 参数);音频情绪标签;语言代码;归一化选项
输出本地扬声器播放;MP3 文件(指定输出路径时)
适用人群macOS 开发者、内容创作者、需要程序化语音生成的技术用户
不包含声音克隆训练、离线合成能力、跨平台官方支持、完整 SSML 兼容

 

风险提示

  • API 调用按字符计费,长文本需注意用量
  • v3 模型不支持 SSML <break>,需使用方括号标签替代
  • 语音克隆功能未开放,仅可使用平台预设声音
  • 网络连接失败时无法生成本地缓存

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/steipete/sag/SKILL.md
来源类型:开源社区技能

数据统计

相关导航

暂无评论

none
暂无评论...