[开源] 扫描件 PDF 转 Markdown / EPUB,自动修复 OCR 错误

134 天前
 BlackHole1

最近我们开源了一个 PDF 处理工具 - pdf-craft,专注于解决扫描书籍 PDF 转换的痛点,让书籍数字化更智能。pdf-craft 支持将 PDF 转为 Markdown 和 EPUB ,智能处理文本、图表、公式等内容,适用于技术文档、书籍数字化、论文研究等场景。

痛点与解决方案

主要特性

技术细节

项目基于 Python 开发,可通过 pip 安装:

pip install pdf-craft

核心使用方法示例:

# PDF 转 Markdown (纯本地处理)
from pdf_craft import PDFPageExtractor, MarkDownWriter

extractor = PDFPageExtractor(
  device="cuda:0",  # GPU 加速
  model_dir_path="/path/to/model/dir/path",
)
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
  for block in extractor.extract(pdf="/path/to/pdf/file"):
    md.write(block)

对于更复杂的 EPUB 转换,可以接入 LLM:

from pdf_craft import LLM, analyse, generate_epub_file

# 配置 LLM
llm = LLM(
  key="sk-XXXXX",
  base_url="https://api.deepseek.com",
  model="deepseek-chat",
  token_encoding="o200k_base",
)

# 分析 PDF
analyse(
  llm=llm,
  pdf_page_extractor=extractor,
  pdf_path="/path/to/pdf/file",
  analysing_dir_path="/path/to/temp",
  output_dir_path="/path/to/output",
)

# 生成 EPUB
generate_epub_file(
  from_dir_path="/path/to/output",
  epub_file_path="/path/to/book.epub",
)

实际效果

立即体验,无需环境配置

想快速尝试 pdf-craft 而不想折腾环境配置?我们提供了更简单的方式: 使用 OOMOL Studio 一键体验pdf-craft for OOMOL studio

OOMOL Studio 是我们开发的工作流 IDE ,内置了隔离的运行环境,无需复杂配置,即可立即体验 pdf-craft 的全部功能。 关于 OOMOL Studio 可以查看之前的介绍: 一款全新的工作流 IDE

当然,pdf-craft 仍然完全开源,你依然可以按照上述方法在自己的环境中配置使用。

适用场景

开源与社区

项目刚刚起步,我们非常欢迎各位 V 友参与:

如果觉得不错,欢迎给项目点个 star ⭐,有什么想法也可以在评论区交流,或者提交 PR 一起完善这个工具。

你也可以通过 https://oomol.com/community/ 找到我们。

5531 次点击
所在节点    分享创造
47 条回复
simple233
134 天前
牛的,那么快又有新东西了
uCharles
134 天前
好厉害
chjian
134 天前
大佬厉害
regent
134 天前
对于爱看书的人是一个福音,谢谢!
jimrok
134 天前
感觉现在正处在寒武纪大爆发阶段,各种新应用层出不穷。
kitty7030
134 天前
可以增加个功能 再转化为 pdf
moskize
134 天前
@kitty7030 反过来转化相对好做,不过我暂时不太明白这么做的应用场景有哪些?
b821025551b
134 天前
@moskize pdf 的兼容性更好,随便拖到浏览器就能看;这个过程就是将扫描版 pdf 转成矢量版 pdf ,提升清晰度,缩小文件体积。
timeisweapon
134 天前
对于普通个人用户来说,还是在线转换工具方便
yibie
134 天前
能接 Ollama 吗?
yazoox
134 天前
这个是真的牛逼!
docx
134 天前
分栏的 PDF 能完美解析吗
kitty7030
134 天前
@moskize > 扫描件 PDF 难以被 AI 、代码处理:分析并结构化 PDF 扫描件,以供 AI 、代码读取
扫描图片 PDF 转成 文字格式 PDF
xieren58
134 天前
sunnysab
134 天前
flowhub 中点击 Open By OMMOL Studio 没有反应(似乎只是刷新了当前页面)。
分析了《聪明在于勤奋,天才在于积累》(华罗庚)一书,第 4 页的分数( 22/7 )没有识别成公式,整本书识别得不错,比当时导入微信读书时识别得强。
jhytxy
134 天前
求 docker 镜像
shenjinpeng
134 天前
微软貌似也有个 markitdown 专门转 PDF 的, 貌似没有 orc
ayang23
134 天前
效果貌似不错
EngAPI
134 天前
不错啊,造福墨水屏
bfdh
134 天前
model_dir_path="/path/to/model/dir/path",
新手求问,这个应该从哪里下?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1120037

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX