MinerU:70.6K 星 — 将任何文档转换为 LLM 就绪的 Markdown

MinerU(70,600+ GitHub star)将 PDF、DOCX、PPTX、XLSX、图像和网页转换为结构化 Markdown 和 JSON,用于 LLM、RAG 和 Agent 工作流程。 支持 109 种语言的 OCR、公式到 LaTeX、表格到 HTML,并在 CPU 或 GPU 上运行。

  • 更新于 2026-06-27

MinerU logo

MinerU — 开源文档解析引擎,在短短一年多的时间里就获得了 70,600 颗 GitHub 星。

在 AI 编码代理和 RAG 管道时代,最大的瓶颈不是模型能力,而是数据质量。 你可以拥有世界上最强大的法学硕士,但如果你的输入文档是凌乱的 PDF,其中有损坏的表格、难以阅读的公式和乱码标题,那么输出将是垃圾。

输入 MinerU,这是来自 OpenDataLab(InternLM 背后的团队)的文档解析工具,可将 PDF、DOCX、PPTX、XLSX、图像和网页转换为干净、结构化的 Markdown 和 JSON — 专为下游 LLM、RAG 和 Agent 工作流程而设计。

凭借70,600+ GitHub 星5,900 个分叉仅今天就获得了 960 颗星,MinerU 已迅速成为文档到 LLM 管道转换的首选开源解决方案。

What Is MinerU? #

MinerU诞生于中文大语言模型InternLM的预训练过程中。 该团队注意到,将科学论文和技术文档转换为机器可读的格式是一个巨大的难题,尤其是对于公式、表格和复杂的布局。

所以他们建立了MinerU。

与仅提取原始文本的传统 PDF 解析器不同,MinerU 了解文档结构:

  • 删除破坏语义一致性的页眉、页脚、脚注和页码
  • 保留单列、多列和复杂布局的阅读顺序
  • 公式转换为 LaTeX,将表格转换为 HTML
  • 检测扫描和乱码的 PDF 并自动启用 OCR
  • 支持 109种语言进行OCR识别
  • 输出 多模式 Markdown、NLP Markdown 和按阅读顺序排序的 JSON

结果是人工智能代理和法学硕士可以真正理解的文档内容。

Installation and Setup #

MinerU根据您的需求提供多种安装路径:

pip(推荐给大多数用户) #

pip install mineru

码头工人 #

docker pull mineru/mineru:latest
docker run --gpus all -v $(pwd):/data mineru/mineru:latest

本地发展 #

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
pip install -e .

MinerU 支持 仅 CPUGPU 加速 推理。 对于 GPU 加速,请安装 CUDA 支持:

pip install mineru[cuda]

在配备 Apple Silicon 的 macOS 上,MinerU 利用 MPS(金属性能着色器)进行加速。

Three Parsing Engines #

MinerU提供了三种不同的解析后端,每种都针对不同的场景进行了优化:

1. Pipeline后端(快速稳定) #

“管道”后端是大多数用户的默认选择。 它快速、稳定并且不会产生幻觉。 它在 CPU 上高效运行,非常适合批处理。

mineru ./input.pdf -o ./output/

最适合: 大容量文档处理、CI/CD 管道、仅 CPU 环境。

2.VLM引擎(高精度) #

VLM(视觉语言模型)引擎使用 MinerU 专有的“MinerU2.5-Pro-2604-1.2B”模型来实现最先进的解析精度。 它擅长处理具有混合布局、手写文本和密集公式的复杂文档。

mineru ./complex.pdf -o ./output/ --engine vlm-engine

最适合: 复杂的科学论文、扫描文档、手写内容、多语言 OCR。

3.混合动力发动机(平衡) #

“混合”引擎将本机文本提取与基于 VLM 的分析相结合。 从 3.3 版本开始,它包含了一个“effort”参数,分为“medium”和“high”级别:

  • 中等努力: 比高速度快 35-220%,OmniDocBench 上的准确度仅下降 0.13 点
  • 高强度: 通过图像分析支持实现最高准确度
mineru ./document.pdf -o ./output/ --engine hybrid-engine --effort medium

最适合: 您需要平衡速度和准确性的生产工作负载。

Supported Formats #

MinerU 支持多种输入格式:

FormatSupport LevelNotes
PDFNativeText PDFs, scanned PDFs, garbled PDFs
DOCXNativeFull structural preservation
PPTXNativeSlides, layouts, embedded content
XLSXNativeTables, formulas, charts
ImagesOCRJPEG, PNG, TIFF, BMP, and more
Web PagesScrapingFull-page conversion to Markdown

原生 DOCX、PPTX 和 XLSX 支持(在版本 3.1.0 中添加)意味着 MinerU 可以直接解析这些格式,而无需先转换为 PDF - 与传统工作流程相比,速度显着提高。

OCR: 109 Languages #

MinerU 的 OCR 引擎支持 109 种语言,并在 3.4 版本中升级至 PP-OCRv6,在 OmniDocBench v1.6 基准测试中准确率提高了约 11%。

从3.4版本开始,MinerU简化了OCR语言配置。 现在,所有场景都通过优化的“ch” OCR 模型进行路由,而不是选择单独的语言(日语、繁体中文、英语、拉丁语),从而降低了配置复杂性,同时提高了准确性。

# Automatic OCR detection (recommended)
mineru ./scanned.pdf -o ./output/

# 对特定文档强制进行 OCR
 ./document.pdf -o ./output/ --ocr

Real-World Use Cases #

RAG 管道数据准备 #

MinerU 专为 RAG(检索增强生成)工作流程而构建。 通过将文档转换为结构化 Markdown 并保留阅读顺序、标题和语义结构,RAG 系统可以更有效地分块和嵌入文档。

import mineru as mu

结果 = mu.parse("./research_paper.pdf")
 # result.markdown:清理 Markdown 以进行嵌入
 # result.json:用于检索的结构化 JSON
 # result.layout:用于调试的可视化布局

AI代理知识库 #

对于需要对文档进行推理的人工智能代理,MinerU 提供了最干净的输入。 删除页眉、页脚和页码可确保代理不会因重复的页面工件而感到困惑。

训练数据生产 #

MinerU 最初是为了支持 InternLM 的预训练管道而构建的。 它能够将复杂的科学论文转换为干净的文本,这对于为特定领域的法学硕士生成高质量的培训数据非常有价值。

批量文档处理 #

通过支持多线程并发推理和流式写入磁盘,M​​inerU 可以处理数千个文档,而无需手动拆分。 滑动窗口机制降低了长文档场景下的内存使用峰值。

Integration Ecosystem #

MinerU 与几乎所有主要的人工智能框架集成:

FrameworkIntegration
LangChainNative document loader
LlamaIndexDocument parser integration
RAGFlowBuilt-in parser
RAG-AnythingPipeline integration
FlowiseVisual workflow support
DifyDocument processing node
FastGPTNative support

MCP 服务器 #

MinerU 还提供 MCP 服务器,用于与 Cursor、Claude Desktop 和 Windsurf 等 AI 编码工具集成。 这允许您直接在编码代理的工作流程中解析文档。

# Start the MCP server
mineru-mcp-server

Performance Benchmarks #

MinerU的“pipeline”后端在OmniDocBench v1.5上取得86.2的分数,超越了上一代VLM模型“MinerU2.0-2505-0.9B”的准确性。

“effort=medium”的混合引擎可提供:

  • Linux 上的文本 PDF 场景 ~80% 提速
  • 对于 Windows 上的文本 PDF 场景,速度 ~90%
  • 对于 macOS 上的文本 PDF 场景,速度**~220%**
  • 与“effort=high”相比,准确率仅下降0.13点

Why MinerU Stands Out #

  1. 专为 AI 而不是人类而构建。 与通用 PDF 转换器不同,MinerU 的输出针对 LLM 消耗进行了优化 - 保留语义结构,同时消除混淆 AI 模型的噪音。

  2. 多格式本机支持。 DOCX、PPTX、XLSX、PDF、图像和网页 - 全部进行本机解析,无需格式转换中介。

  3. 大规模生产就绪。 多线程并发、GPU/CPU 灵活性、Docker 部署以及强大的 API/CLI/路由器架构使 MinerU 适合企业工作负载。

  4. 开放许可证。 在版本 3.1.0 中从 AGPLv3 迁移到基于 Apache 2.0 的自定义许可证,显着减少了社区和商业用途的采用障碍。

  5. 国产AI芯片支持。 兼容Ascend、Cambricon、Enflame、Moore Threads等10+国产AI加速器。

Getting Started #

尝试 MinerU 最简单的方法是通过在线网络应用程序,它提供与桌面客户端相同的功能,无需安装。

对于开发人员来说,Colab笔记本提供了快速的交互式演示。

# Install and parse your first document
pip install mineru
mineru ./my-document.pdf -o ./output/ --format markdown

Limitations #

  • 复杂布局: 虽然 MinerU 可以很好地处理大多数文档类型,但极其复杂的布局(带有交错图形和表格的多列科学论文)可能仍然需要手动审核。
  • VLM 的 GPU 要求: VLM 引擎需要大量 VRAM(建议 8GB+)才能获得最佳性能。
  • 学习曲线: 三引擎架构和各种配置选项可能会让初学者不知所措。

Conclusion #

MinerU 代表了文档到 LLM 转换的重要一步。 通过结合本机多格式解析、109 种语言 OCR 和 AI 优化的输出格式,它填补了现代 AI 数据管道中的关键空白。

无论您是构建 RAG 系统、培训特定领域的法学硕士,还是为 AI 代理创建知识库,MinerU 都能提供干净、结构化的输入,使这些系统真正发挥作用。

MinerU 拥有超过 70,600 颗星、活跃的开发团队和不断增长的框架集成,有望成为人工智能时代开源文档解析的事实上的标准。

Resources #

  • GitHub 存储库:https://github.com/opendatalab/MinerU
  • 文档:https://opendatalab.github.io/MinerU/
  • 在线演示:https://mineru.net/OpenSourceTools/Extractor
  • 技术报告(v3.1):https://arxiv.org/abs/2604.04771
  • 技术报告(v2.5):https://arxiv.org/abs/2509.22186
  • 技术报告(v2.0):https://arxiv.org/abs/2409.18839
  • HuggingFace 演示:https://huggingface.co/spaces/opendatalab/MinerU
  • ModelScope演示:https://www.modelscope.cn/studios/OpenDataLab/MinerU
  • Discord 社区:https://discord.gg/Tdedn9GTXq

披露:本文包含附属链接。 如果您通过我们的链接注册,我们可能会赚取少量佣金,而无需您支付额外费用。 这有助于支持独立的科技新闻业,并使 dibi8.com 等资源保持免费且无广告。

📦 出现在以下合集中

💬 留言讨论