求開源的 AI 翻譯和 OCR 工具

要求：翻譯英文和日文的 pdf 小說和技術書籍（ 100-1000 頁）

在 github 找了一個開源的 pdftranslate 測試了一天，發現如下問題

1.一半的模型用不了，要不提示 api 不對要不未知報錯 2.某些掃描圖片格式的 pdf 不識別文字及排版，翻譯出來要么是原文無變化要么報錯 3.某些文件翻譯出來各種亂碼及排版不對 4.英文識別率好於日文，日文存在從右到左的豎排排版問題比較難處理

求靠譜的工具，可付費

neteroster

2025 年 7 月 21 日

https://github.com/NEKOparapa/AiNiee
https://github.com/neavo/LinguaGacha (不支持 PDF)

术语表生成： https://github.com/neavo/KeywordGacha

其实感觉起来先从 PDF 提文本再给工具翻比较好，比如 doc2x 之类（不想用也可以自己写脚本扔给 Gemini API ），竖排日文不确定能不能做。不行的话单独处理，用类似 https://github.com/kha-white/manga-ocr 的东西

unclemcz

2025 年 7 月 21 日

商用还是非商用？
如果非商用，ocr 可以参考 v2 之前一个帖子，从微信提取的 ocr 工具，帖子地址忘了，docker 地址是 https://hub.docker.com/r/golangboyme/wxocr ，我试过对日文识别很好。
翻译的话用本地化的 qwen3 就很好。
你可以参考我之前一个项目所使用的 ocr 和翻译相关接口（ https://github.com/unclemcz/wodict ），我觉得非商用的情况下，qwen3+wxocr 可以很好解决你的需求。
当然 pdf 这部分需要你自己再处理。

Alexf4

2025 年 7 月 21 日

- [ MinerU]( https://github.com/opendatalab/MinerU)
- [ocrflux ]( https://ocrflux.pdfparser.io/#/)
- [PaddleOCR]( https://github.com/PaddlePaddle/PaddleOCR)

还有更直接的 Gemini 2.5 Pro 。
就是你这个一次识别的页数需要控制好。

Unmurphy

2025 年 7 月 21 日

最近也在类似需求，同时也看过 pdfmathtranslate ，目前新出的 2.0 版本感觉小问题还是蛮多的，

Unmurphy

2025 年 7 月 21 日

pdfmathtranslate 有点比较好的，注重排版，但对于扫描件支持不是很好，另外表格提取翻译也不是很好

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1146482

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.