WhatsApp语音对话

4小时前更新 1 00

实时语音转文字并自动

收录时间：

2026-02-26

手机查看

WhatsApp语音对话

技能简介

该技能将WhatsApp语音消息转换为实时对话流程，提供完整的处理链路：语音接收→语音转文字→意图识别→生成回复→文字转语音发送。

能做什么

自动转录语音消息为文字（支持OGG、WAV、MP3等格式）
检测用户意图（天气查询、状态检查、命令执行等）
根据意图调用对应处理器生成回复内容
将文字回复转换为语音发回用户
支持英语和印地语自动识别，可扩展其他语言
可作为语音助手、免提命令界面、多语言聊天机器人或IoT语音控制入口

使用说明

1. 安装依赖

pip install openai-whisper soundfile numpy

2. 处理单条语音消息

const { processVoiceNote } = require('./scripts/voice-processor');
const fs = require('fs');

const buffer = fs.readFileSync('voice-message.ogg');
const result = await processVoiceNote(buffer);
console.log(result);

3. 启动自动监听服务

node scripts/voice-listener-daemon.js

该服务每5秒扫描 ~/.clawdbot/media/inbound/ 目录，自动处理新收到的语音文件。

4. 自定义意图（可选）

编辑 voice-processor.js，在 INTENTS 映射中添加关键词和处理器函数，即可扩展新的对话能力。

输入与输出

见下方输入与输出表格。

项目	内容
输入	WhatsApp语音消息文件（OGG/WAV/MP3等）、用户标识
输出	文字转录、意图识别结果、文字回复、TTS语音、状态信息
适用人群	WhatsApp机器人开发者、多语言客服系统建设者、IoT语音控制开发者
不包含	WhatsApp官方API配置、Whisper模型预下载、具体业务处理器、生产部署方案

风险提示

首次加载Whisper模型后，单条消息处理约需5-10秒
需要稳定的网络连接以调用Whisper API
语音文件需符合支持的格式要求，否则可能转录失败
自动语言检测基于Unicode字符范围，小众语言需手动扩展配置
生产环境部署时需考虑并发处理和错误重试机制

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/syedateebulislam/whatsapp-voice-chat-integration-open-source/SKILL.md
来源类型：GitHub开源项目

数据统计

暂无评论

暂无评论...

WhatsApp语音对话

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Gong通话分析

WhatsApp消息发送

本地语音服务

X空间录音转录

远程语音播报工具

WhatsApp语音消息

Edge语音合成

呆伯特漫画

暂无评论

标签云