批量 ocr 扫描件,格式特殊,求思路

2022-09-30 01:56:11 +08:00
 niselover

扫描件格式特殊,一般的 ocr api 都不能满足,需要自定义识别, 还需要批量化处理的能力, 求教怎么思路去实现?

vx: d2FuZ3NhbnhpYQ==

1913 次点击
所在节点    程序员
11 条回复
paopjian
2022-09-30 08:17:16 +08:00
扫描件格式再特殊,也能变成图片吧,难道是加密文件?
pony2335
2022-09-30 08:28:15 +08:00
感觉除了格式转换,没其他思路
jifengg
2022-09-30 08:48:33 +08:00
楼主“格式特殊”指的是文字排版特殊,以及你希望 ocr 之后能够获得指定区域的内容吧。类似身份证 ocr 。
百度云我知道有一个,可以自定义 ocr 模板的,楼主可以看看。其他云按理应该也是有的。
kujio
2022-09-30 08:59:37 +08:00
百度云不行,推荐阿里云,还有楼主是什么特殊格式,我公司之前刚做过扫描随货单自动入库的,单据都是乱七八糟格式的,现在识别率还行。
dreasky
2022-09-30 09:35:08 +08:00
百度开源 paddleOCR
0x0208v0
2022-09-30 10:00:43 +08:00
最好整个图片模板,不然不知道有多复杂
niselover
2022-09-30 13:38:52 +08:00
@paopjian
@jifengg
对对 文字排版特殊
paciychen85
2022-09-30 14:58:06 +08:00
最近也有跟 OP 相似的需求,表格截图类型的图片,有没有好的 ocr 软件?最好支持导出成 excel
0bSer7er
2022-09-30 17:11:35 +08:00
最近正好在看 OCR ,阿里云有自定义排版的 api ,公司注册有免费额度,可以看一下
encro
2022-09-30 20:30:06 +08:00
@kujio
@0bSer7er

@dreasky

作为这方面的较深度用户,确实百度不如阿里,特别是这两年,百度算法根本就是开源实现,效果都一般。
阿里自己的算法不公开,效果不错,
而且比直接用阿里也比直接用百度更便宜很多,量不是特别多,比自己部署更便宜。
dreasky
2022-10-02 12:57:46 +08:00
@encro 场景不一样 有些敏感扫描件有保密需求 只能单机

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/883929

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX