语音回复生成

4小时前更新 1 00

TTS语音朗读网页或

收录时间:
2026-02-26
语音回复生成语音回复生成
语音回复生成

技能简介

Audio Reply 使用 MLX Audio TTS(chatterbox-turbo 模型)将文字转换为自然语音,支持两种模式:朗读公开网页内容,或将对话回复转为口语化音频。

能做什么

  • 读取用户提供的公开 URL 内容并语音播报
  • 针对话题生成对话式语音回复
  • 自动播放生成的音频并在结束后清理临时文件

使用说明

安装依赖

# 安装 uv 包管理器
brew install uv

触发方式

  • read it to me [公开URL] — 获取网页内容并朗读
  • talk to me [话题/问题] — 生成对话式语音回复
  • speak / say it / voice reply — 将当前回复转为语音

执行流程(URL 模式)

  1. 验证 URL 符合安全规则(仅 http/https,禁止本地/私有地址)
  2. 使用 WebFetch 获取内容,提取正文并精简摘要
  3. 调用 TTS 生成音频:uv run mlx_audio.tts.generate --model mlx-community/chatterbox-turbo-fp16 --text "..." --play --file_prefix /tmp/audio_reply_$(date +%s)
  4. 播放完成后删除临时 WAV 文件

执行流程(对话模式)

  1. 生成自然口语化文本(使用缩写、适度填充词,控制在 200 字内)
  2. 同上调用 TTS 生成并播放音频
  3. 清理临时文件

输入与输出

见下方输入与输出表格。

项目内容
输入公开网页URL 或 对话话题;触发指令(read it to me / talk to me / speak / say it / voice reply)
输出语音音频(自动播放后删除);文本确认消息
适用人群macOS 用户;需要语音播报网页或对话内容的用户;偏好听觉交互的场景
不包含本地文件读取;私有/内网地址访问;音频持久化存储;非 macOS 系统

 

风险提示

  • 仅允许访问公开 http/https URL,禁止本地地址、私有 IP、含凭据的链接
  • 长网页会自动摘要,可能丢失细节
  • 首次运行需下载约 500MB 模型文件
  • 临时音频文件虽会删除,但聊天历史可能保留原文,避免处理敏感内容
  • TTS 失败时回退为纯文本回复,不会放宽网络访问限制

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/matrixy/audio-reply-skill/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...