国内有什么好用的 PDF 文档 OCR 产品吗

2020-08-06 16:50:01 +08:00
 Beeethoven

项目语言是 Java,运行在 CentOS6.9 服务器上,主攻业务就是可搜索 PDF ( SearchablePDF )的处理和归档

最近来了个需求,需要将纯图片 PDF ( ImagePDF )在项目里 OCR,然后继续处理。

筛选了市面很多产品,最终锁定 ABBYY 的开发者 SDK,可以集成进项目,效果也不错,算市面同类产品独一档。本来和那边客服改谈的都谈好了,Demo 写完了,就等 license 买下来开搞,最后因为是国外软件,不好申请科研经费,方案惨遭腰斩。

问题来了,现在国内有什么好用的 PDF 文档 OCR 产品?
几个硬性要求:
1.可以是 Windows 上的桌面软件(最迫不得已的方案。退而求其次,让用户手动去转),最好是 Linux 上的 SDK
2.桌面软件支持批量处理,SDK 用多线程操作或者批量操作不会有太大的性能问题
3.可以保存为可搜索 PDF
4.除了识别 PDF 页面中的文字,也能识别 PDF 页面中的图片和表格
5.对 PDF 字体大小和位置敏感,OCR 结果排版应该和原文一致

福昕应该是国内 PDF 这一块做的最好的了,可惜它只有 Windows 版的 SDK 才支持 OCR 。不知道还有什么选择推荐,先在这里谢谢了

2968 次点击
所在节点    程序员
14 条回复
Doldrums
2020-08-06 17:08:11 +08:00
万兴? PDFelement
tfdetang
2020-08-06 17:49:44 +08:00
这种 pdf 的 sdk 大概多少钱啊?
Threeinchtime
2020-08-06 17:51:37 +08:00
我司 intsig
Morriaty
2020-08-06 18:24:57 +08:00
ABBYY 似乎要有个物理 U 盘狗才能用?

国内的话,庖丁科技有个完整的产品叫 PDFlux,demo 看起来很牛逼,不知道有没有付费 sdk
rocky55
2020-08-06 18:26:03 +08:00
或许我能做,现在的输出是 xml 能定位图片和文字表格,目前的输出是 xml, 主要是 C++ 和 python 写的,实在有需要可以 zhengwu@midday.me
jilu171990
2020-08-06 21:00:40 +08:00
ABBYY 谈下来啥价?
aosp
2020-08-07 10:31:26 +08:00
百度开源的 PaddleOCR 可以自己改造一下
walkfish
2020-08-07 10:37:11 +08:00
@Threeinchtime 在合合摸鱼,你领导知道么
Threeinchtime
2020-08-07 17:35:43 +08:00
@walkfish 哟?报上名来
Gathaly
2020-08-09 15:33:23 +08:00
专业领域的需要特定业务判断进行版面分析
开源做的最好的就 tessercert 了
对于 api caller 而言,遇到表格、图文混合的十有八九会有乱码的
Beeethoven
2020-08-10 09:14:05 +08:00
@jilu171990 每年 10W 页 7000 刀左右
Beeethoven
2020-08-10 09:30:23 +08:00
@Morriaty 下了一个看了看 重点在表格提取上 ocr 功能挺弱的.. 表格提取我喜欢开源的 tabula 随便按照需求魔改
johnsonshu
2020-08-20 18:25:29 +08:00
@Beeethoven tabula 不能处理图像吧。 只能处理文字型的 PDF
LoneFireBlossom
2021-09-09 16:01:35 +08:00
怪不得 MarginNote 一直没上线桌面端的 ABBYY OCR 功能,这价格确实贵。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/696210

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX