语音音频处理语音音频处理
语音音频处理

技能简介

EachLabs Voice & Audio 提供统一的语音与音频处理能力,整合 ElevenLabs TTS、Whisper 系列转写、RVC 声音转换等模型,通过单一 API 完成文本合成语音、音频转文字、声音克隆及格式转换任务。

业务背景

企业可通过单一接口快速构建语音交互能力,无需对接多家供应商。客服中心可用TTS生成自然回复语音,内容团队能将播客、会议录音自动转为带时间戳的文字稿,产品运营则可实现虚拟主播、个性化语音导航等创新场景,大幅降低语音技术接入门槛。

落地案例:某在线教育平台接入后,在课程制作环节用TTS批量生成多角色旁白,节省真人配音成本;课后将学员提问的语音留言通过STT转写为文字,结合时间戳快速定位知识点答疑;同时用声音克隆技术打造品牌专属IP音色,统一所有触达用户的语音体验。

能做什么

  • 将文本合成为自然人声,支持多说话人对白与音效生成
  • 将音频或视频中的语音转为文字,支持时间戳与说话人标记
  • 克隆特定人声或进行实时声音变换
  • 执行音频裁剪、音视频合并、格式转换等基础处理

使用说明

安装准备

无需本地安装,直接调用云端 API。需完成以下配置:

  1. 访问 eachlabs.ai 注册账号并获取 API Key
  2. 设置环境变量:export EACHLABS_API_KEY="your-api-key"
  3. 所有请求需在 Header 中携带:X-API-Key: $EACHLABS_API_KEY

调用流程

  1. 查询模型:GET https://api.eachlabs.ai/v1/model?slug=<model-slug> 获取输入参数结构
  2. 创建任务:POST https://api.eachlabs.ai/v1/prediction,传入 model、version(固定为 “0.0.1”)及 input 参数
  3. 轮询结果:GET https://api.eachlabs.ai/v1/prediction/{id} 直至 status 为 success 或 failed
  4. 提取输出:从返回的 output 字段获取音频 URL 或转写文本

示例:ElevenLabs 文本转语音

curl -X POST https://api.eachlabs.ai/v1/prediction \
  -H "Content-Type: application/json" \
  -H "X-API-Key: $EACHLABS_API_KEY" \
  -d '{
    "model": "elevenlabs-text-to-speech",
    "version": "0.0.1",
    "input": {
      "text": "欢迎使用我们的产品演示。",
      "voice_id": "EXAVITQu4vr4xnSDxMaL",
      "model_id": "eleven_v3",
      "stability": 0.5,
      "similarity_boost": 0.7
    }
  }'

示例:Whisper 语音转写(带时间戳)

curl -X POST https://api.eachlabs.ai/v1/prediction \
  -H "Content-Type: application/json" \
  -H "X-API-Key: $EACHLABS_API_KEY" \
  -d '{
    "model": "wizper-with-timestamp",
    "version": "0.0.1",
    "input": {
      "audio_url": "https://example.com/audio.mp3",
      "language": "zh",
      "task": "transcribe",
      "chunk_level": "segment"
    }
  }'

输入与输出

见下方输入与输出表格。

项目内容
输入文本字符串或音频URL;模型slug(如elevenlabs-text-to-speech);版本号0.0.1;模型专属参数(voice_id、stability、diarize等);X-API-Key头部认证
输出合成音频URL、转写文本JSON(含word-level时间戳)、说话人标签序列、转换后音频文件链接
适用人群内容创作者、应用开发者、播客制作团队、客服分析人员、本地化团队
不包含离线本地推理、实时流式交互、自定义模型持续训练托管、视频画面处理

 

风险提示

  • API Key 泄露可能导致账户被盗用,建议存储于密钥管理服务
  • 声音克隆涉及肖像权风险,使用前需获得声音主体授权
  • 转写服务依赖网络音频地址,私有文件需先上传至可访问的存储空间
  • 部分模型对输入音频时长有限制,超长文件需预先分割
  • 按调用次数与音频时长计费,高频调用前请确认账户余额

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/eftalyurtseven/eachlabs-voice-audio/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...