Deepgram语音转写

22分钟前更新 1 00
Deepgram语音转写Deepgram语音转写
Deepgram语音转写

技能简介

Deepgram CLI 是 Deepgram 语音转文字服务的命令行客户端,支持本地文件、远程URL和麦克风实时输入,输出格式包括JSON、纯文本、SRT和VTT字幕。

业务背景

Deepgram CLI 让语音内容快速转化为可用文字资产。无论是整理会议录音、抓取播客要点,还是实时记录访谈内容,都能通过命令行一键完成,支持多种输出格式直接对接后续编辑流程,省去手动听写的繁琐工作。

落地案例:市场部每周需整理多场客户电话录音。使用 Deepgram CLI,输入本地录音文件路径即可批量生成带时间戳的文本或 SRT 字幕;记者外出采访时,开启麦克风实时转写模式,边说边出稿;处理网络公开音频时,直接粘贴 URL 即可完成内容提取。说话人分离功能还能自动区分对话双方,方便后续按角色归档。

能做什么

  • 将本地音频文件转为文字
  • 转写网络音频链接内容
  • 通过麦克风实时听写
  • 识别多位说话人并分离
  • 生成带时间轴的字幕文件

使用说明

1. 安装

npm install -g @deepgram/cli

2. 登录授权

deepgram login

按提示输入 Deepgram API 密钥,密钥将保存在本地。

3. 基础转写

deepgram listen prerecorded audio.wav

4. 高级选项

deepgram listen prerecorded audio.wav \
  --model nova-2 \
  --language en \
  --punctuate \
  --diarize

5. 实时麦克风输入

deepgram listen microphone

按 Ctrl+C 停止录制。

6. 保存结果

deepgram listen prerecorded audio.wav > transcript.json
deepgram listen prerecorded audio.wav --format text > transcript.txt

输入与输出

见下方输入与输出表格。

项目内容
输入本地音频文件(.wav/.mp3等)、远程音频URL、麦克风实时流、Deepgram API密钥
输出JSON转写结果、纯文本、SRT字幕、VTT字幕、带说话人标签的时间轴数据
适用人群开发者、字幕制作人员、会议记录员、需要语音自动化的技术团队
不包含视频直接处理、离线运行能力、无限免费额度、图形界面

 

风险提示

  • 需要有效的 Deepgram API 密钥,免费额度用尽后产生费用
  • 麦克风实时转写持续消耗 API 调用时长
  • 网络音频转写受限于链接可访问性和文件大小
  • 说话人分离功能对音频质量有一定要求

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/nerkn/deepgram/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...