最近被 OCR 识别搞得头痛

153 天前
 ltfree

最近项目需要识别功能,对接了第三方 OCR 公司 但出现问题频率太高了,windows 正常识别,部署到服务器就失败,环境换了又换(都是对方指定版本) 我看用的是一些 opencv 的包,也不懂很无奈

有擅长的朋友给些意见么

7286 次点击
所在节点    程序员
49 条回复
zgjldxdyt1
150 天前
豆包的最新视觉模型,1.5 vision pro ,识别文字效果不错,价格也还可以。
unco020511
150 天前
啊现在不都是直接用大模型了吗,4o 的 ocr 已经不错了
vvrfxyz
149 天前
纯内网有卡的话就 mineru ,要不就接 qwen VL 模型,这俩效果都可以
PopRain
149 天前
OCR 这个话题太大了,楼主应该给一些更明确的需求,一般印刷体识别,现在很多开源库都做的不错了。但是你要做版面分析、表格分析,好像付费的也不怎么样,要做到 100%正确,也应该没有
beta4better
149 天前
easyOCR 我用过识别文字还不错,即使是背景很复杂的画面。
8355
149 天前
百度的 paddleocr 好用的不得了。。。
beginor
149 天前
qwen 2.5 vl 32b awq ,ocr 效果相当不错!
ltfree
147 天前
@mumbler 找第三方写的 我看用了很多 libopencv 的依赖,太详细的就不懂了
ltfree
147 天前
@NoOneNoBody 感谢,我去研究一下,目前使用 docker 构建了 Ubuntu22.04 版本,90%可以识别,但剩下的还是和直接部署在 Ubuntu 服务器中的有差异,暂时找不到原因了
目前就是 windows 和原生 Ubuntu22.04 版本服务器中识别比较稳定

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1126373

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX