本地音频转文字本地音频转文字
本地音频转文字

技能简介

基于 faster-whisper 的本地音频转录工具,通过 Docker 容器运行,无需联网或 API 密钥即可将语音文件转换为纯文本。

能做什么

  • 转录 mp3、m4a、ogg、wav、webm、flac、aac 等常见音频格式
  • 支持西班牙语(默认)、英语等语言,或自动检测语种
  • 处理即时通讯中的语音消息附件
  • 完全本地运行,保护音频内容隐私

使用说明

  1. 进入技能目录并执行安装脚本:
    cd /path/to/skills/transcribe/scripts
    chmod +x install.sh
    ./install.sh

    该命令会构建 whisper:local Docker 镜像,并安装 transcribe 命令行工具。

  2. 执行转录:
    transcribe /path/to/audio.mp3 [language]

    其中 language 参数可选:默认为 es(西班牙语),指定 en 为英语,auto 为自动检测。

  3. 如需更高准确度,可编辑 install.sh 将模型从 small 改为 large-v3

输入与输出

见下方输入与输出表格。

项目内容
输入音频文件路径(支持 mp3、m4a、ogg、wav、webm、flac、aac);可选语言参数(es/en/auto)
输出纯文本字符串,直接输出至标准输出流
适用人群需本地离线转录音频的开发者、处理客户语音消息的客服人员、注重数据隐私的金融从业者
不包含实时麦克风输入转录、多人声分离、带时间轴的字幕文件生成、云端 API 调用版本

 

风险提示

  • 首次构建 Docker 镜像需要下载约 1GB 数据
  • small 模型速度快但识别准确率有限,专业场景建议改用 large-v3
  • 长音频转录耗时较长,大文件请预留充足时间
  • 需确保 Docker 服务正常运行

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/javicasper/transcribe/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...