WhatsApp语音对讲

28分钟前更新 1 00

WhatsApp语音

收录时间：

2026-02-26

手机查看

WhatsApp语音对讲

技能简介

该技能实现WhatsApp上的纯语音交互循环：自动将用户发来的语音消息转录为文字，处理后再以语音形式回复，无需打字即可完成对话。

业务背景

解决WhatsApp场景下双手不便打字的痛点，通过纯语音闭环交互提升沟通效率。用户开车、做饭或忙碌时，无需中断手头事务即可完成咨询、下单等操作，同时保留文字记录便于后续查阅，兼顾便捷性与信息可追溯性。

落地案例：某物流客服场景：司机送货途中收到客户WhatsApp语音询问配送时间，系统自动转录为"下午3点能到吗"，后台查询后生成语音回复"预计15:20送达，请保持电话畅通"并同步发送文字版。全程无需停车打字，降低驾驶风险的同时确保服务响应及时。

能做什么

接收并识别WhatsApp语音消息（OGG/Opus格式）
本地转录音频为文字供后续处理
生成语音回复并以语音消息发回
同时提供文字版本确保信息清晰

使用说明

安装依赖

需预先安装以下本地工具：

ffmpeg（音频处理）
whisper-cpp（语音识别）
sherpa-onnx-tts（语音合成）

激活方式

用户直接发送语音消息
或用户输入”activa modo walkie-talkie”/”hablemos por voz”触发

手动执行语音回复

bin/sherpa-onnx-tts /tmp/reply.ogg "你的回复内容"
# 然后通过message工具发送/tmp/reply.ogg

输入与输出

见下方输入与输出表格。

项目	内容
输入	WhatsApp语音消息（OGG/Opus格式）或文字触发指令
输出	语音回复文件（OGG格式）及配套文字回复
适用人群	偏好语音交互的WhatsApp用户、需免手操作场景
不包含	云端API调用、多平台支持、纯文字模式
技术栈	ffmpeg、whisper-cpp、sherpa-onnx-tts（全本地）

风险提示

仅支持本地工具运行，需提前配置环境
要求实时因子RTF<0.5，低性能设备可能延迟
语音识别准确率受音频质量影响
需同时维护文字和语音双通道输出

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/rubenfb23/walkie-talkie/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

WhatsApp语音对讲

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Qwen本地语音合成

AI电台主播

泰米尔语WhatsApp处理

ElevenLabs智能体管理

YouTube视频摘要

ElevenLabs语音合成

AI播客生成

语音唤醒播报

暂无评论

标签云