WhatsApp语音对讲

53分钟前更新 1 00

WhatsApp双向

收录时间：

2026-02-26

手机查看

WhatsApp语音对讲

技能简介

该技能在WhatsApp上实现语音到语音的自动对话循环。接收用户发送的音频消息后，自动转录为文本进行处理，再通过本地语音合成生成回复音频，让用户无需打字即可完成交流。

业务背景

在WhatsApp渠道为用户提供免打字的语音交互体验，特别适合驾驶、户外等不便输入文字的场景。通过自动语音转录与合成，企业可保持服务响应效率，同时满足偏好语音沟通的用户群体需求，拓展客户服务触达方式。

落地案例：某客服场景下，用户向企业WhatsApp账号发送一段语音咨询产品信息。系统自动将语音转为文本理解意图，生成答复内容后，既以文字形式展示详情，又合成语音文件回传，用户可直接收听而无需阅读长文本。若用户发送西班牙语触发词，还可主动激活纯语音对话模式。

能做什么

自动识别并处理WhatsApp收到的音频消息
将语音转录为文本供后续处理
将文本回复转换为语音文件发回给用户
支持西班牙语触发词激活语音模式
同时提供文字和语音两种形式的回复

使用说明

安装依赖

需预先安装以下本地工具：

ffmpeg（音频处理）
whisper-cpp（语音转录）
sherpa-onnx-tts（语音合成）

使用步骤

用户发送音频消息，或发送”activa modo walkie-talkie”/”hablemos por voz”激活语音模式
系统自动调用tools/transcribe_voice.sh转录音频内容
将转录文本作为普通用户提示进行处理
生成回复文本后，调用bin/sherpa-onnx-tts /tmp/reply.ogg "回复内容"合成语音
通过message工具将/tmp/reply.ogg作为语音消息发送给用户

输入与输出

见下方输入与输出表格。

项目	内容
输入	WhatsApp音频消息(.ogg/.opus格式)；西班牙语触发词”activa modo walkie-talkie”或”hablemos por voz”
输出	语音合成文件(.ogg格式)；同步的文字回复
适用人群	需要双手解放操作WhatsApp的用户；偏好语音交互的用户；需本地离线处理的用户
不包含	云端API调用；非WhatsApp平台支持；除西班牙语外的其他语言触发词

风险提示

依赖本地工具链，需确保ffmpeg、whisper-cpp、sherpa-onnx-tts已正确安装
要求实时因子RTF小于0.5，低配置设备可能出现延迟
仅支持本地处理，无法使用云端API
语音合成质量受本地TTS模型限制

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/rubenfb23/vocal-chat/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

WhatsApp语音对讲

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

社媒内容发布助手

Markdown转PDF

飞书交互卡片

飞书群管理

YouTube视频转录

X/Twitter命令行工具

语音音频处理

自主邮件注册

暂无评论

标签云