本地语音交互

4小时前更新 1 00
本地语音交互本地语音交互
本地语音交互

技能简介

该技能通过本地运行的语音代理API,实现与用户的语音对话功能。采用本地Whisper模型完成语音转文字,调用AWS Polly服务将文字转为语音。

能做什么

  • 将用户上传的音频文件转写为文字
  • 将文字内容合成为语音文件并返回
  • 检测语音代理后端服务的健康状态

使用说明

使用前需先部署后端服务,参考仓库中的README.md、walkthrough.md或DOCKER_README.md完成环境搭建,确保服务运行在http://localhost:8000

安装指令:本技能为纯客户端实现,无需启动容器或服务,但依赖外部后端API,请按上述文档自行部署。

使用流程

  1. 用户发送音频消息
  2. 执行转写命令:python3 {baseDir}/scripts/client.py transcribe "/path/to/audio/file.ogg"
  3. 获取回复文本后,执行合成命令:python3 {baseDir}/scripts/client.py synthesize "回复内容" --output "/path/to/output.mp3"
  4. 直接发送生成的音频文件,不附加文字说明

健康检查命令:python3 {baseDir}/scripts/client.py health

输入与输出

见下方输入与输出表格。

项目内容
输入音频文件路径(OGG等格式)、待合成文字、输出文件路径
输出转写文字、MP3音频文件、健康状态检查结果
适用人群需要语音交互的AI代理开发者、本地部署优先的用户、已配置AWS服务的团队
不包含后端API自动部署、非音频输入处理、AWS Polly以外的TTS服务

 

风险提示

  • 后端服务未启动时所有功能不可用,需用户自行排查
  • AWS Polly调用可能产生云服务费用
  • 音频响应模式下禁止附加文字说明,否则破坏交互体验
  • 连接异常时本技能不提供自动修复能力

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/ricardotrevisan/voice-agent/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...