WhatsApp语音对话

4小时前更新 1 00
WhatsApp语音对话WhatsApp语音对话
WhatsApp语音对话

技能简介

该技能将WhatsApp语音消息转换为实时对话流程,提供完整的处理链路:语音接收→语音转文字→意图识别→生成回复→文字转语音发送。

能做什么

  • 自动转录语音消息为文字(支持OGG、WAV、MP3等格式)
  • 检测用户意图(天气查询、状态检查、命令执行等)
  • 根据意图调用对应处理器生成回复内容
  • 将文字回复转换为语音发回用户
  • 支持英语和印地语自动识别,可扩展其他语言
  • 可作为语音助手、免提命令界面、多语言聊天机器人或IoT语音控制入口

使用说明

1. 安装依赖

pip install openai-whisper soundfile numpy

2. 处理单条语音消息

const { processVoiceNote } = require('./scripts/voice-processor');
const fs = require('fs');

const buffer = fs.readFileSync('voice-message.ogg');
const result = await processVoiceNote(buffer);
console.log(result);

3. 启动自动监听服务

node scripts/voice-listener-daemon.js

该服务每5秒扫描 ~/.clawdbot/media/inbound/ 目录,自动处理新收到的语音文件。

4. 自定义意图(可选)

编辑 voice-processor.js,在 INTENTS 映射中添加关键词和处理器函数,即可扩展新的对话能力。

输入与输出

见下方输入与输出表格。

项目内容
输入WhatsApp语音消息文件(OGG/WAV/MP3等)、用户标识
输出文字转录、意图识别结果、文字回复、TTS语音、状态信息
适用人群WhatsApp机器人开发者、多语言客服系统建设者、IoT语音控制开发者
不包含WhatsApp官方API配置、Whisper模型预下载、具体业务处理器、生产部署方案

 

风险提示

  • 首次加载Whisper模型后,单条消息处理约需5-10秒
  • 需要稳定的网络连接以调用Whisper API
  • 语音文件需符合支持的格式要求,否则可能转录失败
  • 自动语言检测基于Unicode字符范围,小众语言需手动扩展配置
  • 生产环境部署时需考虑并发处理和错误重试机制

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/syedateebulislam/whatsapp-voice-chat-integration-open-source/SKILL.md
来源类型:GitHub开源项目

数据统计

相关导航

暂无评论

none
暂无评论...