Qwen本地语音合成
离线文本转语音工具
该技能实现WhatsApp上的纯语音交互循环:自动将用户发来的语音消息转录为文字,处理后再以语音形式回复,无需打字即可完成对话。
解决WhatsApp场景下双手不便打字的痛点,通过纯语音闭环交互提升沟通效率。用户开车、做饭或忙碌时,无需中断手头事务即可完成咨询、下单等操作,同时保留文字记录便于后续查阅,兼顾便捷性与信息可追溯性。
落地案例:某物流客服场景:司机送货途中收到客户WhatsApp语音询问配送时间,系统自动转录为"下午3点能到吗",后台查询后生成语音回复"预计15:20送达,请保持电话畅通"并同步发送文字版。全程无需停车打字,降低驾驶风险的同时确保服务响应及时。
安装依赖
需预先安装以下本地工具:
激活方式
手动执行语音回复
bin/sherpa-onnx-tts /tmp/reply.ogg "你的回复内容"
# 然后通过message工具发送/tmp/reply.ogg
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | WhatsApp语音消息(OGG/Opus格式)或文字触发指令 |
| 输出 | 语音回复文件(OGG格式)及配套文字回复 |
| 适用人群 | 偏好语音交互的WhatsApp用户、需免手操作场景 |
| 不包含 | 云端API调用、多平台支持、纯文字模式 |
| 技术栈 | ffmpeg、whisper-cpp、sherpa-onnx-tts(全本地) |
原始链接:https://github.com/openclaw/skills/tree/main/skills/rubenfb23/walkie-talkie/SKILL.md
来源类型:GitHub仓库