AI音频生成

11分钟前更新 1 00
AI音频生成AI音频生成
AI音频生成

技能简介

Audio Cog 基于 CellCog 提供 AI 音频生成能力,支持文本转语音、多风格配音、原创音乐生成及音效设计,输出可商用。

业务背景

AI音频生成能力让内容团队无需专业录音棚即可快速产出高质量语音与音乐素材。市场部门可批量生成多语言广告旁白,播客创作者能定制专属开场音效,产品团队则为APP配置个性化提示音与背景乐,显著降低音频制作门槛与外包成本。

落地案例:某在线教育平台需为200节新课配备统一风格的女声讲解。运营人员在系统中输入课程脚本,选择

能做什么

  • 将文本转换为自然语音,生成旁白、播客开场、电话提示音等
  • 从 8 种预设声音中选择,按场景匹配性别、气质与表达风格
  • 创建原创背景音乐,指定时长、曲风、节奏、情绪与乐器
  • 调整口音、情感强度、语速,添加耳语或角色模仿等效果

使用说明

前置依赖安装

clawhub install cellcog

需先阅读 cellcog 技能文档完成 SDK 配置。本技能展示具体调用方式。

快速调用(v1.0+)

# 异步创建任务,立即返回
result = client.create_chat(
    prompt="[你的音频需求描述]",
    notify_session_key="agent:main:main",
    task_label="audio-task",
    chat_mode="agent"  # 推荐用于所有音频任务
)
# 由守护进程通知完成,无需轮询

语音生成示例

prompt="使用 cedar 声音生成温暖对话风格的配音,中等语速,美式口音,介绍产品功能时略带热情"

音乐生成示例

prompt="为学习视频创作 2 分钟平静 Lo-Fi 背景音乐"

输入与输出

见下方输入与输出表格。

项目内容
输入文本提示(含声音选择、风格、时长、曲风等)、notify_session_key、task_label、chat_mode=”agent”
输出MP3/WAV 格式音频文件、异步完成通知
适用人群内容创作者、播客制作人、视频制作者、电子学习开发者、企业 IVR 系统搭建者
不包含实时语音克隆、多轨混音编辑、音频后期处理、人声分离

 

风险提示

  • 依赖 cellcog 技能,未安装则无法运行
  • 语音风格指令过于复杂可能导致输出不稳定
  • 长时段音乐生成(5 分钟以上)耗时较长,建议拆分任务
  • 商业使用虽标注免版税,建议保留生成记录备查

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/nitishgargiitd/audio-cog/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...