V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
elinktek
V2EX  ›  问与答

求開源的 AI 翻譯和 OCR 工具

  •  
  •   elinktek · 14 天前 · 768 次点击

    要求:翻譯英文和日文的 pdf 小說和技術書籍( 100-1000 頁)

    在 github 找了一個開源的 pdftranslate 測試了一天,發現如下問題

    1.一半的模型用不了,要不提示 api 不對要不未知報錯 2.某些掃描圖片格式的 pdf 不識別文字及排版,翻譯出來要么是原文無變化要么報錯 3.某些文件翻譯出來各種亂碼及排版不對 4.英文識別率好於日文,日文存在從右到左的豎排排版問題比較難處理

    求靠譜的工具,可付費

    8 条回复    2025-07-21 10:28:11 +08:00
    neteroster
        1
    neteroster  
       14 天前 via Android   ❤️ 1
    https://github.com/NEKOparapa/AiNiee
    https://github.com/neavo/LinguaGacha (不支持 PDF)

    术语表生成: https://github.com/neavo/KeywordGacha

    其实感觉起来先从 PDF 提文本再给工具翻比较好,比如 doc2x 之类(不想用也可以自己写脚本扔给 Gemini API ),竖排日文不确定能不能做。不行的话单独处理,用类似 https://github.com/kha-white/manga-ocr 的东西
    unclemcz
        2
    unclemcz  
       14 天前 via Android   ❤️ 1
    商用还是非商用?
    如果非商用,ocr 可以参考 v2 之前一个帖子,从微信提取的 ocr 工具,帖子地址忘了,docker 地址是 https://hub.docker.com/r/golangboyme/wxocr ,我试过对日文识别很好。
    翻译的话用本地化的 qwen3 就很好。
    你可以参考我之前一个项目所使用的 ocr 和翻译相关接口( https://github.com/unclemcz/wodict ),我觉得非商用的情况下,qwen3+wxocr 可以很好解决你的需求。
    当然 pdf 这部分需要你自己再处理。
    Alexf4
        3
    Alexf4  
       14 天前
    - [ MinerU]( https://github.com/opendatalab/MinerU)
    - [ocrflux ]( https://ocrflux.pdfparser.io/#/)
    - [PaddleOCR]( https://github.com/PaddlePaddle/PaddleOCR)

    还有更直接的 Gemini 2.5 Pro 。
    就是你这个一次识别的页数需要控制好。
    Unmurphy
        4
    Unmurphy  
       14 天前
    最近也在类似需求,同时也看过 pdfmathtranslate ,目前新出的 2.0 版本感觉小问题还是蛮多的,
    Unmurphy
        5
    Unmurphy  
       14 天前
    pdfmathtranslate 有点比较好的,注重排版,但对于扫描件支持不是很好,另外表格提取翻译也不是很好
    hammy
        6
    hammy  
       14 天前
    @unclemcz 原来如此,thanks
    djv
        7
    djv  
       14 天前 via Android
    OCR 有 UMI-OCR ,翻译有沉浸式翻译
    elinktek
        8
    elinktek  
    OP
       14 天前
    謝謝大家提供思路信息網先測試一下各位的方法!
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1627 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 16:29 · PVG 00:29 · LAX 09:29 · JFK 12:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.