文档转Markdown

2小时前更新 6 00
文档转Markdown文档转Markdown
文档转Markdown

技能简介

基于markitdown的文档转换工具,支持PDF、Word、Excel、PPT、图片、音频等20余种格式转为Markdown,便于LLM处理与文本分析。

能做什么

  • 将办公文档(PDF/DOCX/XLSX/PPTX)转为结构化Markdown
  • 提取图片中的文字内容(OCR)及EXIF元数据
  • 转录音频文件为文字并输出Markdown
  • 解析YouTube链接、ZIP压缩包、EPub电子书
  • 通过Azure Document Intelligence优化复杂PDF的提取质量

使用说明

安装方式:无需安装,直接使用uvx运行

# 基础转换
uvx markitdown input.pdf

# 保存到文件
uvx markitdown input.pdf -o output.md
uvx markitdown input.docx > output.md

# 从标准输入读取
cat input.pdf | uvx markitdown

# 指定文件类型提示(用于stdin)
cat document | uvx markitdown -x .pdf > output.md

# 使用Azure文档智能服务
uvx markitdown scan.pdf -d -e "https://your-resource.cognitiveservices.azure.com/"

输入与输出

见下方输入与输出表格。

项目内容
输入PDF、Word、Excel、PPT、HTML、CSV、JSON、XML、图片、音频、ZIP、YouTube链接、EPub;支持文件路径或stdin流
输出Markdown格式文本,保留原文档的标题层级、表格结构、列表和链接
适用人群数据工程师、LLM应用开发者、研究人员、文档管理员、内容迁移团队
不包含视频直接转换、DRM保护文档破解、图形化界面操作、永久本地安装包

 

风险提示

  • OCR识别准确率受图片清晰度影响,复杂排版可能丢失格式
  • 音频转录依赖Whisper模型,长文件处理耗时较长
  • 首次运行需下载缓存依赖,建议提前测试
  • 涉及敏感内容的PDF建议使用本地处理,谨慎使用云端AI服务

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/steipete/markdown-converter/SKILL.md
来源类型:开源社区

数据统计

相关导航

暂无评论

none
暂无评论...