情感语音合成

3小时前更新 1 00
情感语音合成情感语音合成
情感语音合成

技能简介

MoodCast 将任意文本转换为带有情绪表达的音频,并自动匹配环境音效。基于 ElevenLabs v3 音频标签和 Sound Effects API,分析内容后插入合适的情绪标记与背景声景。

业务背景

内容创作者和营销团队可将静态文字转化为富有感染力的音频素材,无需专业配音人员即可批量生产带情绪张力的有声内容。通过自动匹配环境音效,显著降低播客、有声书及品牌音频内容的制作门槛与时间成本。

落地案例:某知识付费平台每日需将数十篇专栏文章转为音频推送。编辑输入文章文本,选择"calm"风格并添加"咖啡厅背景"环境音,系统自动生成带有温和语调和轻微咖啡杯碰撞声的晨读音频,直接用于APP推送,替代原有外包配音流程。

能做什么

  • 为文本添加自然情绪表达,朗读更生动
  • 生成文章、故事或脚本的有声版本
  • 制作带氛围感的配音作品
  • 转换晨间简报为吸引人的音频内容
  • 支持多角色对话,分配不同声线

使用说明

安装准备

需配置环境变量 ELEVENLABS_API_KEY(必需),可选配置默认声线、模型等参数。

基础用法

python3 {baseDir}/scripts/moodcast.py --text "要转换的文本"

添加环境音效

python3 {baseDir}/scripts/moodcast.py --text "文本" --ambient "咖啡店背景音"

保存文件

python3 {baseDir}/scripts/moodcast.py --text "文本" --output story.mp3

指定情绪风格

python3 {baseDir}/scripts/moodcast.py --text "文本" --mood dramatic
python3 {baseDir}/scripts/moodcast.py --text "文本" --mood calm
python3 {baseDir}/scripts/moodcast.py --text "文本" --mood excited
python3 {baseDir}/scripts/moodcast.py --text "文本" --mood scary

查看可用声线

python3 {baseDir}/scripts/moodcast.py --list-voices

自定义配置

python3 {baseDir}/scripts/moodcast.py --text "文本" --voice VOICE_ID --model eleven_v3 --output-format mp3_44100_128

输入与输出

见下方输入与输出表格。

项目内容
输入纯文本内容;可选参数包括环境音效描述、情绪风格(dramatic/calm/excited/scary)、声线ID、输出路径、模型版本、输出格式
输出MP3格式音频文件;控制台显示带情绪标签的增强文本预览
适用人群内容创作者、播客主播、开发者、教育工作者、需要将文字转为语音的个人用户
不包含视频画面生成、实时语音克隆、离线运行、中文方言优化、超长文本一次性处理

 

风险提示

  • 依赖 ElevenLabs API,需自行管理密钥安全
  • 免费额度约每月 10 分钟音频,超出需付费
  • 单次文本建议控制在 2400 字符以内
  • 环境音效最长 30 秒,长内容需分段处理
  • 音频标签必须小写,格式错误会导致解析失败

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/ashutosh887/moodcast/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...