语音克隆生成

21分钟前更新 1 00

基于样本克隆任意人声

收录时间：

2026-02-26

手机查看

语音克隆生成

技能简介

CloneV 使用 Coqui XTTS v2 模型，从 6-30 秒的短音频样本中克隆任意人声，并生成指定文本的语音输出。支持 14 种以上语言，可将克隆后的声音用于跨语言说话。

业务背景

CloneV 让业务人员无需专业配音资源，即可快速复刻特定人声用于品牌传播、客户服务和内容生产。支持跨语言克隆，帮助企业以统一音色触达全球用户，降低多语种内容制作成本，同时保持品牌声音的一致性识别度。

落地案例：某跨国企业的中国区负责人需要为海外发布会录制英文致辞，但时间紧迫且本人发音不自信。团队提供其 20 秒中文演讲片段作为样本，通过 CloneV 生成英文语音，音色与本人高度一致。最终稿件经简单审听后直接采用，避免了协调外籍配音演员的周期和费用。

能做什么

克隆用户本人或他人的声音特征
生成与特定人物音色一致的语音内容
制作个性化语音消息
实现跨语言语音克隆（用一种声音说多种语言）

使用说明

安装要求

首次运行自动下载约 1.87GB 模型文件至 /mnt/c/TEMP/Docker-containers/coqui-tts/models-xtts/，无需手动配置 Docker 容器。

使用步骤

准备输入：待合成的文本、WAV 格式语音样本（6-30 秒）、目标语言代码
执行脚本：VOICE_FILE=$(scripts/clonev.sh "文本内容" /path/to/sample.wav 语言代码)
获取输出：变量 $VOICE_FILE 即为生成的 OGG 音频文件路径

常用语言代码：en（英语）、cs（捷克语）、de（德语）、fr（法语）、es（西班牙语）、it（意大利语）、pl（波兰语）、pt（葡萄牙语）、tr（土耳其语）、ru（俄语）、nl（荷兰语）、ar（阿拉伯语）、zh（中文）、ja（日语）等。

输入与输出

见下方输入与输出表格。

项目	内容
输入	待合成文本、WAV 语音样本（6-30 秒）、语言代码
输出	OGG 格式克隆语音文件
适用人群	开发者、内容创作者、多语言应用构建者
不包含	实时流式合成、视频生成、商用授权声库

风险提示

禁止直接操作 Docker 容器或调用 API，必须使用提供的脚本
语音样本需为清晰无噪的 WAV 格式，音乐或嘈杂环境会导致克隆失败
处理耗时 20-40 秒，属正常计算开销
注意语音克隆的伦理与法律边界，避免未经授权模仿他人声音

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/instant-picture/clonev/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

语音克隆生成

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

会议记录查询

ElevenLabs语音合成

语音转文字

飞书妙记提取

EachLabs语音转写

印尼歌词英译

图片文字提取

Mac语音播报

暂无评论

标签云