本地语音交互

4小时前更新 1 00

AI语音输入输出代理

收录时间：

2026-02-26

本地语音交互

该技能通过本地运行的语音代理API，实现与用户的语音对话功能。采用本地Whisper模型完成语音转文字，调用AWS Polly服务将文字转为语音。

使用前需先部署后端服务，参考仓库中的README.md、walkthrough.md或DOCKER_README.md完成环境搭建，确保服务运行在http://localhost:8000。

安装指令：本技能为纯客户端实现，无需启动容器或服务，但依赖外部后端API，请按上述文档自行部署。

使用流程：

用户发送音频消息
执行转写命令：python3 {baseDir}/scripts/client.py transcribe "/path/to/audio/file.ogg"
获取回复文本后，执行合成命令：python3 {baseDir}/scripts/client.py synthesize "回复内容" --output "/path/to/output.mp3"
直接发送生成的音频文件，不附加文字说明

健康检查命令：python3 {baseDir}/scripts/client.py health

见下方输入与输出表格。

项目	内容
输入	音频文件路径（OGG等格式）、待合成文字、输出文件路径
输出	转写文字、MP3音频文件、健康状态检查结果
适用人群	需要语音交互的AI代理开发者、本地部署优先的用户、已配置AWS服务的团队
不包含	后端API自动部署、非音频输入处理、AWS Polly以外的TTS服务

原始链接：https://github.com/openclaw/skills/tree/main/skills/ricardotrevisan/voice-agent/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论...