学中文引擎
普通话学习复习工具
基于 NVIDIA Parakeet TDT 0.6B v3 的本地语音转文字服务,使用 ONNX Runtime 在 CPU 上运行。速度约为实时处理的30倍,支持25种语言自动检测,提供与 OpenAI 兼容的 API 接口。
满足企业对敏感会议录音、内部培训资料等音频内容的本地化转录需求,避免数据上传云端带来的合规风险。支持25种语言自动识别,30倍实时处理速度让小时级音频分钟级完成,OpenAI兼容接口降低现有系统迁移成本。
落地案例:法务团队需将2小时的董事会录音转为文字纪要,传统方式依赖人工速记或第三方云服务存在泄密隐患。部署该服务后,直接将WAV文件拖入浏览器或调用Python SDK,选择verbose_json格式输出带时间戳的分段文本,快速定位关键决议节点,全程内网运行无需联网。
安装部署
# 克隆仓库
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git
cd parakeet-tdt-0.6b-v3-fastapi-openai
# Docker 方式运行(推荐)
docker compose up -d parakeet-cpu
# 或直接 Python 运行
pip install -r requirements.txt
uvicorn app.main:app --host 0.0.0.0 --port 5000
默认端口为 5000,可通过环境变量 PARAKEET_URL 修改(如 http://localhost:5092)。
快速调用
# 纯文本转录
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=text"
# 带时间戳的详细输出
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=verbose_json"
# 生成 SRT 字幕
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=srt"
支持 Python OpenAI SDK 调用,设置 base_url 指向本地服务地址即可。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 音频文件(MP3、WAV 等常见格式);可选参数 response_format 指定输出格式 |
| 输出 | 纯文本、JSON(含时间戳)、SRT 字幕或 WebVTT 字幕 |
| 适用人群 | 需要本地部署语音识别的开发者、注重隐私的企业用户、已使用 OpenAI SDK 的迁移用户 |
| 不包含 | GPU 加速、实时流式识别、说话人分离、模型微调训练 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/carlulsoe/parakeet-stt/SKILL.md
来源类型:GitHub 开源项目