这样是否可以保证 OCR 识别率接近百分之 100

21 小时 29 分钟前
 Suinn

受前段时间看过的一篇帖子启发,同时用 ocr 和视觉大模型进行识别,结果相同的才输出,输出质量感觉会非常高,缺陷是可能存在没输出的情况

5353 次点击
所在节点    程序员
44 条回复
8355
21 小时 21 分钟前
这样的策略本质上是通过降低识别率来提高正确率
按我的理解一定是没有只使用 ocr 来的好
Suinn
21 小时 19 分钟前
@8355 主要是有些业务场景,人家的要求是要么不识别,要么就要识别准,所以我才会有了这个方案
RotkPPP
21 小时 16 分钟前
vlm 还真没有 ocr 好用,而且 vlm 如果能正确识别出来,ocr 一定可以,但 ocr 能识别的,vlm 还真不一定。主要看业务场景吧
Suinn
21 小时 15 分钟前
@RotkPPP 对,主要就是如果单纯只用 ocr 识别,光看置信度不能保证出来的一定准,这种做法相当于用 VLM 加了一层校验
huangzhiyia
21 小时 14 分钟前
在 GitHub 上看到个挺有意思的开源解决方案 iOS OCR Server ,它把 iPhone 手机变成强大的本地 OCR 服务器。

基于苹果的 Vision Framework 实现高精度文字识别,支持多语言自动检测,只需在同一网络下通过 IP 地址访问即可使用。

GitHub: http://github.com/riddleling/iOS-OCR-Server
gpt5
21 小时 14 分钟前
这本来就是通过提高 frr 来降低的 far ,“缺陷”当然就是 frr 高了。far/frrd 的平衡,一般看具体场景。
Suinn
21 小时 12 分钟前
@gpt5 是的,主要还是预设业务场景属于要么不识别,要么尽量百分百识别的那种。所以想请各位大佬看看这个方案是否存在大的问题
cctrv
21 小时 10 分钟前
VLM 的問題主要在 OCR 精度問題。
我是把 OCR 文本和圖像一併送入 VLM 。

那麼就可以完美降低 VLM 的 OCR 錯誤問題。
paopjian
20 小时 54 分钟前
前两天才看到的逆天例子 https://www.zhihu.com/question/302170944/answer/1952029733140268672, 日常里 OCR+VLM 应该是没问题, 恶意攻击那可真是防不胜防
对于清晰文字, 普通 OCR 已经很能打了, 手写识别这种上 VLM 可以解决部分, 但是两个一起问题就是 VLM 的准确性了, 差一个字这种你就舍弃会被认为阈值过高
2en
20 小时 53 分钟前
@RotkPPP 识别模糊粘连的号码 ocr 不如视觉模型
Suinn
20 小时 52 分钟前
@paopjian 对,因为主要是账单的数字识别,文本上不会有太多
Julaoshi
20 小时 51 分钟前
忘了哪里看到的,似乎可以先放大再进行 OCR ,这样识别准确率就会提高
ltmst
20 小时 37 分钟前
阿里已经有了
我前些阵子测试了一下
效果只能说一般
Suinn
20 小时 30 分钟前
@gbw1992 一般主要是体现在出现了大量的 False Rejection 吗,其实这个方案只有能保证识别出来的没问题,我觉得就 ok 了
surbomfla
20 小时 26 分钟前
但这样做计算开销比较大
InkAndBanner
20 小时 8 分钟前
我们使用了 QwenVL2.5 7B 在资质图片场景下做了大量的结构化信息提取 ,总的效果还是比 OCR 要好的,但是存在一定幻觉 比如信息自动补全,和联想的情况。如果图片重点字段出现的位置类似 可以在对话的时候 提供左上和右下两个点位的坐标 来提示模型提取重点区域 会优化提取效果。至于 ocr 信息辅助模型进行提取,也是已经验证过的好办法,但是模型结果用来和 ocr 做对比 我觉得只会在一些对准确容忍度非常低的场景 如金融票据才会采用。但是金融票据往往是标准票据 ocr 已经很能打了,非标场景才是 VL 模型的发挥阵地
Suinn
20 小时 2 分钟前
@InkAndBanner 感谢分享,vlm 这块你们有试过 InternVL 或者 glmVL 吗,看最近的分数都挺高但是不知道实际能力和 qwen 比如何
dem0ns
19 小时 59 分钟前
既然是代码+代码实现 100%,那为什么不一步到位?既然能够一步到位,那么早就该有 100%的 OCR 。
MIUIOS
19 小时 56 分钟前
还有一个缺陷吧,速度下去了
InkAndBanner
19 小时 56 分钟前
@dem0ns #18 抱歉 没有 我们是阿里系的 优先用 qwen

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1160962

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX