Groq语音合成
阿拉伯语与英语AI配
该技能通过本地运行的语音代理API,实现与用户的语音对话功能。采用本地Whisper模型完成语音转文字,调用AWS Polly服务将文字转为语音。
使用前需先部署后端服务,参考仓库中的README.md、walkthrough.md或DOCKER_README.md完成环境搭建,确保服务运行在http://localhost:8000。
安装指令:本技能为纯客户端实现,无需启动容器或服务,但依赖外部后端API,请按上述文档自行部署。
使用流程:
python3 {baseDir}/scripts/client.py transcribe "/path/to/audio/file.ogg"python3 {baseDir}/scripts/client.py synthesize "回复内容" --output "/path/to/output.mp3"健康检查命令:python3 {baseDir}/scripts/client.py health
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 音频文件路径(OGG等格式)、待合成文字、输出文件路径 |
| 输出 | 转写文字、MP3音频文件、健康状态检查结果 |
| 适用人群 | 需要语音交互的AI代理开发者、本地部署优先的用户、已配置AWS服务的团队 |
| 不包含 | 后端API自动部署、非音频输入处理、AWS Polly以外的TTS服务 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/ricardotrevisan/voice-agent/SKILL.md
来源类型:GitHub仓库