技能简介
视频消息(avatar-video-messages)用于生成带唇同步 VRM 头像的视频消息。将 TTS 文本或音频转换为视频,输出为 Telegram 视频笔记(圆形格式),适合需要视觉化语音回复的场景。
能做什么
- 从文本或音频生成头像视频消息
- VRM 头像唇同步
- 支持纯色或图片背景
- 输出 Telegram 视频笔记格式
- 自定义 VRM 头像模型
- 自动检测无头环境(Linux xvfb)
使用说明
安装 Skill:
通过 ClawHub 安装:
clawhub install avatar-video-messages
安装依赖:
npm install -g openclaw-avatarcam
macOS:brew install ffmpeg
Linux:sudo apt-get install -y xvfb xauth ffmpeg
配置 TOOLS.md:
在 TOOLS.md 中添加配置:
### Video Message (avatarcam)
- avatar: default.vrm
- background: #00FF00
配置项:avatar(VRM 文件路径,默认 default.vrm)、background(颜色或图片路径,默认 #00FF00)
生成视频:
纯色背景:avatarcam --audio voice.mp3 --output video.mp4 --background "#00FF00"
图片背景:avatarcam --audio voice.mp3 --output video.mp4 --background "./bg.png"
自定义头像:avatarcam --audio voice.mp3 --output video.mp4 --avatar "./custom.vrm"
发送视频笔记:
message action=send filePath=/tmp/video.mp4 asVideoNote=true
工作流程:
1. 从 TOOLS.md 读取配置(avatar、background)
2. 如有文本则生成 TTS:tts text="..." → 音频路径
3. 运行 avatarcam 生成 MP4
4. 通过 message 工具以视频笔记形式发送
5. 返回 NO_REPLY
输入与输出
| 项目 | 内容 |
|---|---|
| 输入 | TTS文本/音频、VRM头像、背景颜色/图片、输出路径 |
| 输出 | MP4视频、Telegram视频笔记、唇同步动画 |
| 适用人群 | 需要视觉化语音回复的用户、Telegram开发者、内容创作者 |
| 不包含 | 实时视频通话、多人会议、视频编辑 |
见下方输入与输出表格。
风险提示
- 需要 ffmpeg、avatarcam 和可选的 xvfb(Linux)
- 生成时间约为实时音频的 1.5 倍(20秒音频约30秒处理)
- 视频规格:384×384、30fps、H.264、最长60秒
- GPU 延迟警告可安全忽略
- 发送后清理临时文件:
rm /tmp/video*.mp4
来源信息
原始链接:https://github.com/openclaw/skills/tree/main/skills/thewulf7/avatar-video-messages/SKILL.md
来源类型:GitHub
