本地语音转文字本地语音转文字
本地语音转文字

技能简介

基于 NVIDIA Parakeet TDT 0.6B v3 的本地语音转文字服务,使用 ONNX Runtime 在 CPU 上运行。速度约为实时处理的30倍,支持25种语言自动检测,提供与 OpenAI 兼容的 API 接口。

业务背景

满足企业对敏感会议录音、内部培训资料等音频内容的本地化转录需求,避免数据上传云端带来的合规风险。支持25种语言自动识别,30倍实时处理速度让小时级音频分钟级完成,OpenAI兼容接口降低现有系统迁移成本。

落地案例:法务团队需将2小时的董事会录音转为文字纪要,传统方式依赖人工速记或第三方云服务存在泄密隐患。部署该服务后,直接将WAV文件拖入浏览器或调用Python SDK,选择verbose_json格式输出带时间戳的分段文本,快速定位关键决议节点,全程内网运行无需联网。

能做什么

  • 将音频文件转换为纯文本、带时间戳的 JSON 或字幕格式
  • 通过 OpenAI SDK 或标准 HTTP 请求调用转录服务
  • 在浏览器中直接拖拽上传音频进行转录
  • 完全本地运行,无需联网或云端 API

使用说明

安装部署

# 克隆仓库
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git
cd parakeet-tdt-0.6b-v3-fastapi-openai

# Docker 方式运行(推荐)
docker compose up -d parakeet-cpu

# 或直接 Python 运行
pip install -r requirements.txt
uvicorn app.main:app --host 0.0.0.0 --port 5000

默认端口为 5000,可通过环境变量 PARAKEET_URL 修改(如 http://localhost:5092)。

快速调用

# 纯文本转录
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=text"

# 带时间戳的详细输出
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=verbose_json"

# 生成 SRT 字幕
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=srt"

支持 Python OpenAI SDK 调用,设置 base_url 指向本地服务地址即可。

输入与输出

见下方输入与输出表格。

项目内容
输入音频文件(MP3、WAV 等常见格式);可选参数 response_format 指定输出格式
输出纯文本、JSON(含时间戳)、SRT 字幕或 WebVTT 字幕
适用人群需要本地部署语音识别的开发者、注重隐私的企业用户、已使用 OpenAI SDK 的迁移用户
不包含GPU 加速、实时流式识别、说话人分离、模型微调训练

 

风险提示

  • 首次启动需下载模型文件,请确保磁盘空间充足
  • 长音频处理占用较多内存,建议分批处理大文件
  • CPU 负载较高时可能影响其他服务响应
  • 自动语言检测对短音频可能不够准确

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/carlulsoe/parakeet-stt/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...