最近被 OCR 识别搞得头痛

2025 年 4 月 18 日
 ltfree

最近项目需要识别功能,对接了第三方 OCR 公司 但出现问题频率太高了,windows 正常识别,部署到服务器就失败,环境换了又换(都是对方指定版本) 我看用的是一些 opencv 的包,也不懂很无奈

有擅长的朋友给些意见么

8901 次点击
所在节点    程序员
49 条回复
1daydayde
2025 年 4 月 18 日
ddddocr
JxQg597
2025 年 4 月 18 日
Tesseract OCR
PaddleOCR 模型,支持调参,Python 调用。
Umi-OCR 支持 Docker 部署和 RestfulAPI ,本地模型用的 PaddleOCR https://github.com/hiroi-sora/Umi-OCR
243205964
2025 年 4 月 18 日
connectsixboy
2025 年 4 月 18 日
失败原因是什么呢?看看报错日志
nicoljiang
2025 年 4 月 18 日
你们对接的哪家?
chaodada
2025 年 4 月 18 日
@nananqujava 我在阿里云的 ecs 部署效果特别差 本地部署效果就不错
lmengmeng
2025 年 4 月 18 日
@villivateur 我有个同事做类似需求也是这样试了下,本地小模型效果好像就挺不错了
mx2dream
2025 年 4 月 18 日
Docling 也用过,可以完全在本地部署,支持 API 调用
soap0X
2025 年 4 月 18 日
调用接口不用考虑问题。linux 下 opencv 需要编译对版本的。还有个问题是否用了扩展模块。ocr 感觉还是需要对接模型。oc 你理解为一个不是项目语言的一个 lib 库就行了。
bigtan
2025 年 4 月 18 日
soleils
2025 年 4 月 18 日
@chaodada #26 我也觉得很奇怪, 不知道问题出在哪, 这种黑盒
Damn
2025 年 4 月 19 日
@0312birdzhang 这个效果很不好,之前手搓公司 VPN 登录器,连预知验证码是两位数字加减(没有乘除)都识别不好。最后还是手工输入的。
lyhapple
2025 年 4 月 19 日
我有一个可以私有化部署的 OCR 服务,用 python 、flask 开发的,有 API 接口, 也可以打包成 docker 镜像,怎么联系楼主?
xiaomushen
2025 年 4 月 19 日
PaddleOCR, RapidOCR,私有化部署很简单,CPU 推理也很快
hmxxmh
2025 年 4 月 19 日
ppocr 读光 ocr 对印刷体都挺好的,手写体不行,v 友门有好用的手写 ocr 吗
kkss198x
2025 年 4 月 20 日
mistral 的 ocr 我自己在用 感觉中文识别有点弱
pike0002
2025 年 4 月 20 日
Google, Azure 和 Mistral 都有 AI 加持的 OCR 服务。体验下来 Google 和 Azure 的靠谱一些,对于中文表现也还可以。

或者也可以看看 https://ocr.space/,CopyFish 似乎就是用的这个。
roygong
2025 年 4 月 20 日
直接用微软的 Azure Document Intelligence ,开源项目 OpenWebUI 就对接了这个
kekeabab
2025 年 4 月 20 日
不是,windows 和 macOS ,iOS ,都有自带的 OCR ,调一下不就好了。苹果自带那个支持巨多语言,我以前还参与过一个项目还是用 iPhone 做集群 OCR 服务卖的。
liuzhedash
2025 年 4 月 21 日
可以用 Tesseract OCR
效果马马虎虎但是也够用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1126373

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX