求開源的 AI 翻譯和 OCR 工具

71 天前
 elinktek

要求:翻譯英文和日文的 pdf 小說和技術書籍( 100-1000 頁)

在 github 找了一個開源的 pdftranslate 測試了一天,發現如下問題

1.一半的模型用不了,要不提示 api 不對要不未知報錯 2.某些掃描圖片格式的 pdf 不識別文字及排版,翻譯出來要么是原文無變化要么報錯 3.某些文件翻譯出來各種亂碼及排版不對 4.英文識別率好於日文,日文存在從右到左的豎排排版問題比較難處理

求靠譜的工具,可付費

1225 次点击
所在节点    问与答
8 条回复
neteroster
71 天前
https://github.com/NEKOparapa/AiNiee
https://github.com/neavo/LinguaGacha (不支持 PDF)

术语表生成: https://github.com/neavo/KeywordGacha

其实感觉起来先从 PDF 提文本再给工具翻比较好,比如 doc2x 之类(不想用也可以自己写脚本扔给 Gemini API ),竖排日文不确定能不能做。不行的话单独处理,用类似 https://github.com/kha-white/manga-ocr 的东西
unclemcz
71 天前
商用还是非商用?
如果非商用,ocr 可以参考 v2 之前一个帖子,从微信提取的 ocr 工具,帖子地址忘了,docker 地址是 https://hub.docker.com/r/golangboyme/wxocr ,我试过对日文识别很好。
翻译的话用本地化的 qwen3 就很好。
你可以参考我之前一个项目所使用的 ocr 和翻译相关接口( https://github.com/unclemcz/wodict ),我觉得非商用的情况下,qwen3+wxocr 可以很好解决你的需求。
当然 pdf 这部分需要你自己再处理。
Alexf4
71 天前
- [ MinerU]( https://github.com/opendatalab/MinerU)
- [ocrflux ]( https://ocrflux.pdfparser.io/#/)
- [PaddleOCR]( https://github.com/PaddlePaddle/PaddleOCR)

还有更直接的 Gemini 2.5 Pro 。
就是你这个一次识别的页数需要控制好。
Unmurphy
71 天前
最近也在类似需求,同时也看过 pdfmathtranslate ,目前新出的 2.0 版本感觉小问题还是蛮多的,
Unmurphy
71 天前
pdfmathtranslate 有点比较好的,注重排版,但对于扫描件支持不是很好,另外表格提取翻译也不是很好
hammy
71 天前
@unclemcz 原来如此,thanks
djv
71 天前
OCR 有 UMI-OCR ,翻译有沉浸式翻译
elinktek
71 天前
謝謝大家提供思路信息網先測試一下各位的方法!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1146482

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX