本地语音转文字

22分钟前更新 1 00

NVIDIA Par

收录时间：

2026-02-26

手机查看

本地语音转文字

技能简介

基于 NVIDIA Parakeet TDT 0.6B v3 的本地语音转文字服务，使用 ONNX Runtime 在 CPU 上运行。速度约为实时处理的30倍，支持25种语言自动检测，提供与 OpenAI 兼容的 API 接口。

业务背景

满足企业对敏感会议录音、内部培训资料等音频内容的本地化转录需求，避免数据上传云端带来的合规风险。支持25种语言自动识别，30倍实时处理速度让小时级音频分钟级完成，OpenAI兼容接口降低现有系统迁移成本。

落地案例：法务团队需将2小时的董事会录音转为文字纪要，传统方式依赖人工速记或第三方云服务存在泄密隐患。部署该服务后，直接将WAV文件拖入浏览器或调用Python SDK，选择verbose_json格式输出带时间戳的分段文本，快速定位关键决议节点，全程内网运行无需联网。

能做什么

将音频文件转换为纯文本、带时间戳的 JSON 或字幕格式
通过 OpenAI SDK 或标准 HTTP 请求调用转录服务
在浏览器中直接拖拽上传音频进行转录
完全本地运行，无需联网或云端 API

使用说明

安装部署

# 克隆仓库
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git
cd parakeet-tdt-0.6b-v3-fastapi-openai

# Docker 方式运行（推荐）
docker compose up -d parakeet-cpu

# 或直接 Python 运行
pip install -r requirements.txt
uvicorn app.main:app --host 0.0.0.0 --port 5000

默认端口为 5000，可通过环境变量 PARAKEET_URL 修改（如 http://localhost:5092）。

快速调用

# 纯文本转录
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=text"

# 带时间戳的详细输出
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=verbose_json"

# 生成 SRT 字幕
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=srt"

支持 Python OpenAI SDK 调用，设置 base_url 指向本地服务地址即可。

输入与输出

见下方输入与输出表格。

项目	内容
输入	音频文件（MP3、WAV 等常见格式）；可选参数 response_format 指定输出格式
输出	纯文本、JSON（含时间戳）、SRT 字幕或 WebVTT 字幕
适用人群	需要本地部署语音识别的开发者、注重隐私的企业用户、已使用 OpenAI SDK 的迁移用户
不包含	GPU 加速、实时流式识别、说话人分离、模型微调训练

风险提示

首次启动需下载模型文件，请确保磁盘空间充足
长音频处理占用较多内存，建议分批处理大文件
CPU 负载较高时可能影响其他服务响应
自动语言检测对短音频可能不够准确

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/carlulsoe/parakeet-stt/SKILL.md
来源类型：GitHub 开源项目

数据统计

暂无评论

暂无评论...

本地语音转文字

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

学中文引擎

ChatGPT对话导出

音视频转写助手

OpenAI语音合成

NordVPN命令控制

阿姆哈拉语音转写

Emporia能源查询

Voice.ai语音合成

暂无评论

标签云