YouTube视频转录
获取YouTube视
EachLabs Voice & Audio 提供统一的语音与音频处理能力,整合 ElevenLabs TTS、Whisper 系列转写、RVC 声音转换等模型,通过单一 API 完成文本合成语音、音频转文字、声音克隆及格式转换任务。
企业可通过单一接口快速构建语音交互能力,无需对接多家供应商。客服中心可用TTS生成自然回复语音,内容团队能将播客、会议录音自动转为带时间戳的文字稿,产品运营则可实现虚拟主播、个性化语音导航等创新场景,大幅降低语音技术接入门槛。
落地案例:某在线教育平台接入后,在课程制作环节用TTS批量生成多角色旁白,节省真人配音成本;课后将学员提问的语音留言通过STT转写为文字,结合时间戳快速定位知识点答疑;同时用声音克隆技术打造品牌专属IP音色,统一所有触达用户的语音体验。
安装准备
无需本地安装,直接调用云端 API。需完成以下配置:
export EACHLABS_API_KEY="your-api-key"X-API-Key: $EACHLABS_API_KEY调用流程
https://api.eachlabs.ai/v1/model?slug=<model-slug> 获取输入参数结构https://api.eachlabs.ai/v1/prediction,传入 model、version(固定为 “0.0.1”)及 input 参数https://api.eachlabs.ai/v1/prediction/{id} 直至 status 为 success 或 failed示例:ElevenLabs 文本转语音
curl -X POST https://api.eachlabs.ai/v1/prediction \
-H "Content-Type: application/json" \
-H "X-API-Key: $EACHLABS_API_KEY" \
-d '{
"model": "elevenlabs-text-to-speech",
"version": "0.0.1",
"input": {
"text": "欢迎使用我们的产品演示。",
"voice_id": "EXAVITQu4vr4xnSDxMaL",
"model_id": "eleven_v3",
"stability": 0.5,
"similarity_boost": 0.7
}
}'
示例:Whisper 语音转写(带时间戳)
curl -X POST https://api.eachlabs.ai/v1/prediction \
-H "Content-Type: application/json" \
-H "X-API-Key: $EACHLABS_API_KEY" \
-d '{
"model": "wizper-with-timestamp",
"version": "0.0.1",
"input": {
"audio_url": "https://example.com/audio.mp3",
"language": "zh",
"task": "transcribe",
"chunk_level": "segment"
}
}'
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 文本字符串或音频URL;模型slug(如elevenlabs-text-to-speech);版本号0.0.1;模型专属参数(voice_id、stability、diarize等);X-API-Key头部认证 |
| 输出 | 合成音频URL、转写文本JSON(含word-level时间戳)、说话人标签序列、转换后音频文件链接 |
| 适用人群 | 内容创作者、应用开发者、播客制作团队、客服分析人员、本地化团队 |
| 不包含 | 离线本地推理、实时流式交互、自定义模型持续训练托管、视频画面处理 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/eftalyurtseven/eachlabs-voice-audio/SKILL.md
来源类型:GitHub 仓库