WhatsApp语音对讲

28分钟前更新 1 00
WhatsApp语音对讲WhatsApp语音对讲
WhatsApp语音对讲

技能简介

该技能实现WhatsApp上的纯语音交互循环:自动将用户发来的语音消息转录为文字,处理后再以语音形式回复,无需打字即可完成对话。

业务背景

解决WhatsApp场景下双手不便打字的痛点,通过纯语音闭环交互提升沟通效率。用户开车、做饭或忙碌时,无需中断手头事务即可完成咨询、下单等操作,同时保留文字记录便于后续查阅,兼顾便捷性与信息可追溯性。

落地案例:某物流客服场景:司机送货途中收到客户WhatsApp语音询问配送时间,系统自动转录为"下午3点能到吗",后台查询后生成语音回复"预计15:20送达,请保持电话畅通"并同步发送文字版。全程无需停车打字,降低驾驶风险的同时确保服务响应及时。

能做什么

  • 接收并识别WhatsApp语音消息(OGG/Opus格式)
  • 本地转录音频为文字供后续处理
  • 生成语音回复并以语音消息发回
  • 同时提供文字版本确保信息清晰

使用说明

安装依赖

需预先安装以下本地工具:

  • ffmpeg(音频处理)
  • whisper-cpp(语音识别)
  • sherpa-onnx-tts(语音合成)

激活方式

  1. 用户直接发送语音消息
  2. 或用户输入”activa modo walkie-talkie”/”hablemos por voz”触发

手动执行语音回复

bin/sherpa-onnx-tts /tmp/reply.ogg "你的回复内容"
# 然后通过message工具发送/tmp/reply.ogg

输入与输出

见下方输入与输出表格。

项目内容
输入WhatsApp语音消息(OGG/Opus格式)或文字触发指令
输出语音回复文件(OGG格式)及配套文字回复
适用人群偏好语音交互的WhatsApp用户、需免手操作场景
不包含云端API调用、多平台支持、纯文字模式
技术栈ffmpeg、whisper-cpp、sherpa-onnx-tts(全本地)

 

风险提示

  • 仅支持本地工具运行,需提前配置环境
  • 要求实时因子RTF<0.5,低性能设备可能延迟
  • 语音识别准确率受音频质量影响
  • 需同时维护文字和语音双通道输出

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/rubenfb23/walkie-talkie/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...