如何从 ocr 识别后的碎片化信息中提取出有效信息，如姓名手机号身份证车牌这种信息。

目前没有成本和时间搭建一个大模型，能想到的就是比较原始的正则匹配方式。
但是弊端比较多，只能精确匹配，多一个字少一个字都拿不到，或者带*号的，有时候 ocr 出来的也会缺东西多东西。导致肉眼能看到的很多信息正则都匹配不到。
大佬们有什么比较好的方案或者类似工具库吗，可以比较人性化一点的匹配到有效信息，比如多个数字少个数字或者看着比较像人名的都可以匹配到。

xylitolLin

2024-03-15 10:33:50 +08:00

先用 yolo 处理一下图片，把目标区域切下来之后，再进行 OCR ，这样可以提高 OCR 的准确性

KOMA1NIUJUNSHENG

2024-03-15 10:58:57 +08:00

@lidapang 可以啊老哥，这个识别出来的比百度高精度 ocr 还好一点。

KOMA1NIUJUNSHENG

2024-03-15 11:04:58 +08:00

@lidapang 但是错别字有点多，文字的识别准确度有待改善。

lidapang

2024-03-15 11:07:42 +08:00

你根据文档上面的参数调整下，错别字多的原因可能识别的时候那个临界点没有设置合适，前提不对图片做处理的情况下

SuperMaskv

2024-03-15 11:29:04 +08:00

如果是证件，表格这种类型的可以看一下微软的 layoutlm 系列，有中文的预训练模型
https://github.com/microsoft/unilm/tree/master/layoutlmv3

xmuli

2024-03-15 12:28:35 +08:00

如百度 ocr 接口也有专门针对车牌，发票等具体的，识别率很高。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1023862

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.