PDF 解析工具,大模型开发神器

9 天前
 lpdswing

项目地址

https://github.com/lpdswing/mineru-web

MinerU Web

🌟 项目简介

MinerU Web 是一个现代化的文档智能处理平台,基于先进的 AI 技术,提供文档解析、信息提取和智能分析功能。本项目采用前后端分离架构,结合容器化技术,为用户提供高效、可靠的文档处理解决方案。

✨ 核心特性

🛠️ 技术栈

后端

前端

🚀 快速开始

前置准备

  1. 下载模型文件:
# 克隆项目
git clone https://github.com/lpdswing/mineru-web.git
cd mineru-web

# 下载模型文件
# 更新为 2.0 模型
python download_models.py modelscope
或
python download_models.py huggingface
  1. 配置 MinIO 地址:
# 复制环境变量模板
cp .env.example .env

# 编辑 .env 文件,修改 MinIO 地址
MINIO_ENDPOINT=your-minio-address:9000
  1. 配置 mineru.json
# 复制 mineru 配置文件模板
cp mineru.example.json mineru.json

# 修改 endpoint
    "bucket_info": {
        "mds": [
            "minioadmin",
            "minioadmin",
            "http://your-minio-address:9000"
        ]
    },

使用 Docker Compose 部署

# 启动服务
docker-compose up -d

# 参考以下网址安装 mc
https://min.io/docs/minio/linux/reference/minio-mc.html

# 添加 minio 的 alias
mc alias set local http://localhost:9000 minioadmin minioadmin

# 设置 mds 桶为 public
mc anonymous set download local/mds

界面展示

首页 - 展示系统概览和快速操作

文件管理 - 支持多种文档格式的上传和管理

文档预览 - 智能解析和展示文档内容

文件上次 - 批量上传

本地开发环境

# 启动本地开发环境
docker-compose -f docker-compose.local.yml up -d

📦 项目结构

mineru-web/
├── backend/           # 后端服务
│   ├── app/          # 应用代码
│   ├── tests/        # 测试用例
│   └── Dockerfile    # 后端 Docker 配置
├── frontend/         # 前端应用
│   ├── src/         # 源代码
│   ├── public/      # 静态资源
│   └── Dockerfile   # 前端 Docker 配置
├── models/          # AI 模型文件
├── magic-pdf.json   # 模型配置文件
├── docker-compose.yml           # 生产环境配置
├── docker-compose.local.yml     # 开发环境配置
└── README.md        # 项目文档

🔧 配置说明

环境变量

端口说明

🤝 贡献指南

我们欢迎各种形式的贡献,包括但不限于:

📄 开源协议

本项目采用 AGPL-3.0 协议开源,详情请参见 LICENSE 文件。

📝 更新日志

[2.0.0] - 2025-07-07

🌟 致谢


📈 Star 趋势

<picture> <source media="(prefers-color-scheme: dark)" srcset="https://api.star-history.com/svg?repos=lpdswing/mineru-web&type=Timeline&theme=dark" /> <source media="(prefers-color-scheme: light)" srcset="https://api.star-history.com/svg?repos=lpdswing/mineru-web&type=Timeline" /> </picture>
1106 次点击
所在节点    开源软件
6 条回复
cnscud
9 天前
最后这张图是认真的吗
benxin4
9 天前
文档预览如果左右可以互相跳转就好了,或者选中左边内容,右边也突出一下
SSSLC77
9 天前
star 了,支持
lpdswing
9 天前
@benxin4 这个需要换 pdf 组件,使用频率不高,多数情况下还是解析给大模型用,直接下载 markdown ,预览只是锦上添花
hscui
8 天前
楼主你好。
我不是程序员,一般只能依靠 README 中说明来安装和部署,昨天刚部署了 MinerU ,但只能使用命令行版,WEB 版无法使用,所以查到您这个项目。

您这个部署步骤是只支持 Linux 吗?可以在 WIN10 上部署吗?是否需要先安装 MinerU ?是否一定需要 GPU ?
lpdswing
8 天前
@hscui windows 可以部署,需要 docker ,不需要安装 mineru ,可以只用 cpu 。按说明一步一步来就可以

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1144696

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX