MinerU 2.0开源PDF解析工具:智能提取文本/表格/公式,支持84种语言OCR

MinerU 2.0专业级PDF解析工具,可精准提取文本、表格、公式(自动转LaTeX)及图片,智能清理页眉/页脚/页码,支持84种语言OCR识别。提供Markdown/JSON多格式输出,兼容Windows/Linux/Mac系统,开源免费,适用于科研文献处理与数据挖掘。

图片[1]-MinerU 2.0开源PDF解析工具:智能提取文本/表格/公式,支持84种语言OCR - 优源网-优源网

🚀 核心功能

一、智能内容提取

► ​深度清理文档干扰

  • 自动删除页眉、页脚、脚注、页码
  • 精准还原阅读顺序(单栏/多栏/复杂排版)
    ► ​结构化数据提取
  • 保留标题/段落/列表层级
  • 提取图片描述+表格+表格标题
    ► ​专业格式转换
  • 公式 → LaTeX格式
  • 表格 → HTML格式

二、智能处理技术

► ​OCR增强引擎

  • 支持84种语言识别
  • 自动检测扫描版/乱码PDF并启用OCR
    ► ​多平台加速支持
  • 纯CPU环境运行
  • GPU(CUDA)/NPU(CANN)/MPS硬件加速

⚙️ 安装与使用

三、快速部署

bash复制# 安装核心组件  
pip install --upgrade pip  
pip install uv  
uv pip install -U "mineru[core]"  

► ​在线体验

  • Hugging Face Demo
  • ModelScope平台

► ​核心参数

参数功能
-m解析模式(auto/txt/ocr)
-l指定语言(提升OCR精度)
-f公式解析开关(默认开启)
-t表格解析开关(默认开启)

© 版权声明
THE END
喜欢就支持一下吧
点赞2388 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称

    暂无评论内容