如何高效率高质量利用 LLM 翻译一本文字版 pdf 书籍(几百页)?

2 天前
 SGL
有一些不错的书籍没有国内译本,鉴于个人英语水平不支持高效率地阅读英文书籍。

因此想要把文字版的 pdf 书籍自己翻译成中文手稿。

目前想象的思路就是:

1. 利用 pdf 工具把所每页都处理成 markdown ,图片提取出来也用 markdown 格式进行排版。
2. 调用 LLM API 逐个文档翻译。
3. 为了便于校对翻译质量,采取一段一段的上英下中的对照式翻译。

上面的方案中唯一不确定性的在于:
1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
2. 至于 llm 翻译的部分,翻译本身就不需要太长的上下文,就一段一段的慢慢放到后台调 api 并发翻译,然后拼接起来就好了。
2411 次点击
所在节点    程序员
21 条回复
SGL
2 天前
由于是编程类书籍,所以还得考虑下代码块能否正确的识别和转换
123go
2 天前
如果你只是解决英文 pdf 文档阅读问题,我推荐你试试微信阅读。
它的全文翻译看效果就是用的 LLM ,并且质量相当高。而且会对长段落进行适当的切割以方便中英对照。
twofox
2 天前
沉浸式翻译,我用它翻译了算法导论第四版。保留双语版本,原格式。
twofox
2 天前
@twofox 该花钱花钱,在自己不擅长的领域,消耗的时间精力会更加多。
SGL
2 天前
@twofox 沉浸式翻译出来的排版布局却是不错,感谢
ydm9481
2 天前
GitHub 上有 PDFMathTranslate-next
MIUIOS
2 天前
全部翻译不现实 不如看一段翻译一段
funcman
2 天前
UPDF
hammy
2 天前
让 Gt4t 去翻译的话反正花钱就行了...自己动手创造轮子可以复用,也有好处。
Colemei
2 天前
没什么特别注意的,反正都是要消耗 api 的 credits ,你翻译书籍的内容是固定的 token 数也是固定的,我这里提供一点思路:现在各大 provider 很多都支持 batch api ,可以省一半的 api 费用,让 agent 写 batch 的实现也很简单,把 official doc 喂给他读一下就好了
jamers
2 天前
doc2x.noedgeai.com ,推荐用这个,方便快捷~
speedmancs
2 天前
把电子书导入微信阅读,如果是 pdf 形式的它也能翻译,只不过要先转成电子书格式。
yahon
2 天前
https://app.immersivetranslate.com/babel-doc/ 这个应该能满足你的要求~
BlueSkyXN
2 天前
太麻烦,谷歌一键翻译
liqinliqin
2 天前
www.swoole.com 上面可以翻译,直接上传 pdf 就行了,输出也是翻译好的 pdf
moudy
2 天前
编程类书籍的英语都很简单吧,跟文学性或新闻性的英文根本不在一个级别上。翻译之后很多原意都领会不到。
SGL
2 天前
@liqinliqin 这个看上去好像不太对,是否发错了
Yade
2 天前
之前的小红书的 dots.ocr 做过一些 pdf 格式的书籍转成 markdown 格式,看起来不错
liqinliqin
1 天前
@SGL #17 没错,你可以体验下,功能就是你所需要的
CodeCodeStudy
16 小时 6 分钟前
@moudy #16 我也觉得编程类的英语比新闻的容易看太多了,新闻的用词较复杂,不过我觉得还是先翻译成中文后通读一遍,然后再看英文原文,这样更能容易明白书所要表达的意思

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1163691

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX