语音音频处理

1小时前更新 1 00

TTS/STT/变声

收录时间：

2026-02-26

手机查看

语音音频处理

技能简介

EachLabs Voice & Audio 提供统一的语音与音频处理能力，整合 ElevenLabs TTS、Whisper 系列转写、RVC 声音转换等模型，通过单一 API 完成文本合成语音、音频转文字、声音克隆及格式转换任务。

业务背景

企业可通过单一接口快速构建语音交互能力，无需对接多家供应商。客服中心可用TTS生成自然回复语音，内容团队能将播客、会议录音自动转为带时间戳的文字稿，产品运营则可实现虚拟主播、个性化语音导航等创新场景，大幅降低语音技术接入门槛。

落地案例：某在线教育平台接入后，在课程制作环节用TTS批量生成多角色旁白，节省真人配音成本；课后将学员提问的语音留言通过STT转写为文字，结合时间戳快速定位知识点答疑；同时用声音克隆技术打造品牌专属IP音色，统一所有触达用户的语音体验。

能做什么

将文本合成为自然人声，支持多说话人对白与音效生成
将音频或视频中的语音转为文字，支持时间戳与说话人标记
克隆特定人声或进行实时声音变换
执行音频裁剪、音视频合并、格式转换等基础处理

使用说明

安装准备

无需本地安装，直接调用云端 API。需完成以下配置：

访问 eachlabs.ai 注册账号并获取 API Key
设置环境变量：export EACHLABS_API_KEY="your-api-key"
所有请求需在 Header 中携带：X-API-Key: $EACHLABS_API_KEY

调用流程

查询模型：GET https://api.eachlabs.ai/v1/model?slug=<model-slug> 获取输入参数结构
创建任务：POST https://api.eachlabs.ai/v1/prediction，传入 model、version（固定为 “0.0.1”）及 input 参数
轮询结果：GET https://api.eachlabs.ai/v1/prediction/{id} 直至 status 为 success 或 failed
提取输出：从返回的 output 字段获取音频 URL 或转写文本

示例：ElevenLabs 文本转语音

curl -X POST https://api.eachlabs.ai/v1/prediction \
  -H "Content-Type: application/json" \
  -H "X-API-Key: $EACHLABS_API_KEY" \
  -d '{
    "model": "elevenlabs-text-to-speech",
    "version": "0.0.1",
    "input": {
      "text": "欢迎使用我们的产品演示。",
      "voice_id": "EXAVITQu4vr4xnSDxMaL",
      "model_id": "eleven_v3",
      "stability": 0.5,
      "similarity_boost": 0.7
    }
  }'

示例：Whisper 语音转写（带时间戳）

curl -X POST https://api.eachlabs.ai/v1/prediction \
  -H "Content-Type: application/json" \
  -H "X-API-Key: $EACHLABS_API_KEY" \
  -d '{
    "model": "wizper-with-timestamp",
    "version": "0.0.1",
    "input": {
      "audio_url": "https://example.com/audio.mp3",
      "language": "zh",
      "task": "transcribe",
      "chunk_level": "segment"
    }
  }'

输入与输出

见下方输入与输出表格。

项目	内容
输入	文本字符串或音频URL；模型slug（如elevenlabs-text-to-speech）；版本号0.0.1；模型专属参数（voice_id、stability、diarize等）；X-API-Key头部认证
输出	合成音频URL、转写文本JSON（含word-level时间戳）、说话人标签序列、转换后音频文件链接
适用人群	内容创作者、应用开发者、播客制作团队、客服分析人员、本地化团队
不包含	离线本地推理、实时流式交互、自定义模型持续训练托管、视频画面处理

风险提示

API Key 泄露可能导致账户被盗用，建议存储于密钥管理服务
声音克隆涉及肖像权风险，使用前需获得声音主体授权
转写服务依赖网络音频地址，私有文件需先上传至可访问的存储空间
部分模型对输入音频时长有限制，超长文件需预先分割
按调用次数与音频时长计费，高频调用前请确认账户余额

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/eftalyurtseven/eachlabs-voice-audio/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

语音音频处理

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

YouTube视频转录

Duby语音合成

Inworld语音合成

会议转录内容生成

飞书妙记提取

音效生成器

YouTube视频助手

语音转文字服务

暂无评论

标签云