WhatsApp语音对讲

53分钟前更新 1 00
WhatsApp语音对讲WhatsApp语音对讲
WhatsApp语音对讲

技能简介

该技能在WhatsApp上实现语音到语音的自动对话循环。接收用户发送的音频消息后,自动转录为文本进行处理,再通过本地语音合成生成回复音频,让用户无需打字即可完成交流。

业务背景

在WhatsApp渠道为用户提供免打字的语音交互体验,特别适合驾驶、户外等不便输入文字的场景。通过自动语音转录与合成,企业可保持服务响应效率,同时满足偏好语音沟通的用户群体需求,拓展客户服务触达方式。

落地案例:某客服场景下,用户向企业WhatsApp账号发送一段语音咨询产品信息。系统自动将语音转为文本理解意图,生成答复内容后,既以文字形式展示详情,又合成语音文件回传,用户可直接收听而无需阅读长文本。若用户发送西班牙语触发词,还可主动激活纯语音对话模式。

能做什么

  • 自动识别并处理WhatsApp收到的音频消息
  • 将语音转录为文本供后续处理
  • 将文本回复转换为语音文件发回给用户
  • 支持西班牙语触发词激活语音模式
  • 同时提供文字和语音两种形式的回复

使用说明

安装依赖

需预先安装以下本地工具:

  • ffmpeg(音频处理)
  • whisper-cpp(语音转录)
  • sherpa-onnx-tts(语音合成)

使用步骤

  1. 用户发送音频消息,或发送”activa modo walkie-talkie”/”hablemos por voz”激活语音模式
  2. 系统自动调用tools/transcribe_voice.sh转录音频内容
  3. 将转录文本作为普通用户提示进行处理
  4. 生成回复文本后,调用bin/sherpa-onnx-tts /tmp/reply.ogg "回复内容"合成语音
  5. 通过message工具将/tmp/reply.ogg作为语音消息发送给用户

输入与输出

见下方输入与输出表格。

项目内容
输入WhatsApp音频消息(.ogg/.opus格式);西班牙语触发词”activa modo walkie-talkie”或”hablemos por voz”
输出语音合成文件(.ogg格式);同步的文字回复
适用人群需要双手解放操作WhatsApp的用户;偏好语音交互的用户;需本地离线处理的用户
不包含云端API调用;非WhatsApp平台支持;除西班牙语外的其他语言触发词

 

风险提示

  • 依赖本地工具链,需确保ffmpeg、whisper-cpp、sherpa-onnx-tts已正确安装
  • 要求实时因子RTF小于0.5,低配置设备可能出现延迟
  • 仅支持本地处理,无法使用云端API
  • 语音合成质量受本地TTS模型限制

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/rubenfb23/vocal-chat/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...