最近被 OCR 识别搞得头痛

153 天前

ltfree

最近项目需要识别功能，对接了第三方 OCR 公司但出现问题频率太高了，windows 正常识别，部署到服务器就失败，环境换了又换（都是对方指定版本）我看用的是一些 opencv 的包，也不懂很无奈

有擅长的朋友给些意见么

7286 次点击

所在节点

49 条回复

zgjldxdyt1

150 天前

豆包的最新视觉模型，1.5 vision pro ，识别文字效果不错，价格也还可以。

unco020511

150 天前

啊现在不都是直接用大模型了吗,4o 的 ocr 已经不错了

vvrfxyz

149 天前

纯内网有卡的话就 mineru ，要不就接 qwen VL 模型，这俩效果都可以

PopRain

149 天前

OCR 这个话题太大了，楼主应该给一些更明确的需求，一般印刷体识别，现在很多开源库都做的不错了。但是你要做版面分析、表格分析，好像付费的也不怎么样，要做到 100%正确，也应该没有

beta4better

149 天前

easyOCR 我用过识别文字还不错，即使是背景很复杂的画面。

8355

149 天前

百度的 paddleocr 好用的不得了。。。

beginor

149 天前

qwen 2.5 vl 32b awq ，ocr 效果相当不错！

ltfree

147 天前

@mumbler 找第三方写的我看用了很多 libopencv 的依赖，太详细的就不懂了

ltfree

147 天前

@NoOneNoBody 感谢，我去研究一下，目前使用 docker 构建了 Ubuntu22.04 版本，90%可以识别，但剩下的还是和直接部署在 Ubuntu 服务器中的有差异，暂时找不到原因了
目前就是 windows 和原生 Ubuntu22.04 版本服务器中识别比较稳定

第 3 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.