MinerU 2.0专业级PDF解析工具,可精准提取文本、表格、公式(自动转LaTeX)及图片,智能清理页眉/页脚/页码,支持84种语言OCR识别。提供Markdown/JSON多格式输出,兼容Windows/Linux/Mac系统,开源免费,适用于科研文献处理与数据挖掘。
![图片[1]-MinerU 2.0开源PDF解析工具:智能提取文本/表格/公式,支持84种语言OCR - 优源网-优源网](https://www.souyuanzhan.com/wp-content/uploads/2025/07/23749fe2a220250707102452-1024x530.webp)
🚀 核心功能
一、智能内容提取
► 深度清理文档干扰
- 自动删除页眉、页脚、脚注、页码
- 精准还原阅读顺序(单栏/多栏/复杂排版)
► 结构化数据提取 - 保留标题/段落/列表层级
- 提取图片描述+表格+表格标题
► 专业格式转换 - 公式 → LaTeX格式
- 表格 → HTML格式
二、智能处理技术
► OCR增强引擎
- 支持84种语言识别
- 自动检测扫描版/乱码PDF并启用OCR
► 多平台加速支持 - 纯CPU环境运行
- GPU(CUDA)/NPU(CANN)/MPS硬件加速
⚙️ 安装与使用
三、快速部署
bash复制# 安装核心组件
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[core]"
► 在线体验
- Hugging Face Demo
- ModelScope平台
► 核心参数
参数 | 功能 |
---|---|
-m | 解析模式(auto/txt/ocr) |
-l | 指定语言(提升OCR精度) |
-f | 公式解析开关(默认开启) |
-t | 表格解析开关(默认开启) |
登录后可以使用不限速网盘下载
© 版权声明
THE END
暂无评论内容