最近被 OCR 识别搞得头痛

最近项目需要识别功能，对接了第三方 OCR 公司但出现问题频率太高了，windows 正常识别，部署到服务器就失败，环境换了又换（都是对方指定版本）我看用的是一些 opencv 的包，也不懂很无奈

有擅长的朋友给些意见么

JxQg597

2025 年 4 月 18 日

Tesseract OCR
PaddleOCR 模型，支持调参，Python 调用。
Umi-OCR 支持 Docker 部署和 RestfulAPI ，本地模型用的 PaddleOCR https://github.com/hiroi-sora/Umi-OCR

243205964

2025 年 4 月 18 日

https://github.com/hiroi-sora/Umi-OCR

不知道这个可以不

connectsixboy

2025 年 4 月 18 日

失败原因是什么呢？看看报错日志

chaodada

2025 年 4 月 18 日

@nananqujava 我在阿里云的 ecs 部署效果特别差本地部署效果就不错

lmengmeng

2025 年 4 月 18 日

@villivateur 我有个同事做类似需求也是这样试了下，本地小模型效果好像就挺不错了

mx2dream

2025 年 4 月 18 日

Docling 也用过，可以完全在本地部署，支持 API 调用

soap0X

2025 年 4 月 18 日

调用接口不用考虑问题。linux 下 opencv 需要编译对版本的。还有个问题是否用了扩展模块。ocr 感觉还是需要对接模型。oc 你理解为一个不是项目语言的一个 lib 库就行了。

soleils

2025 年 4 月 18 日

@chaodada #26 我也觉得很奇怪, 不知道问题出在哪, 这种黑盒

Damn

2025 年 4 月 19 日

@0312birdzhang 这个效果很不好，之前手搓公司 VPN 登录器，连预知验证码是两位数字加减（没有乘除）都识别不好。最后还是手工输入的。

lyhapple

2025 年 4 月 19 日

我有一个可以私有化部署的 OCR 服务，用 python 、flask 开发的，有 API 接口，也可以打包成 docker 镜像，怎么联系楼主？

xiaomushen

2025 年 4 月 19 日

PaddleOCR, RapidOCR,私有化部署很简单，CPU 推理也很快

hmxxmh

2025 年 4 月 19 日

ppocr 读光 ocr 对印刷体都挺好的，手写体不行，v 友门有好用的手写 ocr 吗

kkss198x

2025 年 4 月 20 日

mistral 的 ocr 我自己在用感觉中文识别有点弱

pike0002

2025 年 4 月 20 日

Google, Azure 和 Mistral 都有 AI 加持的 OCR 服务。体验下来 Google 和 Azure 的靠谱一些，对于中文表现也还可以。

或者也可以看看 https://ocr.space/，CopyFish 似乎就是用的这个。

roygong

2025 年 4 月 20 日

直接用微软的 Azure Document Intelligence ，开源项目 OpenWebUI 就对接了这个

kekeabab

2025 年 4 月 20 日

不是，windows 和 macOS ，iOS ，都有自带的 OCR ，调一下不就好了。苹果自带那个支持巨多语言，我以前还参与过一个项目还是用 iPhone 做集群 OCR 服务卖的。

liuzhedash

2025 年 4 月 21 日

可以用 Tesseract OCR
效果马马虎虎但是也够用

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1126373

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.