有啥软件或者服务可以做 PDF 文件的 OCR?

2022-06-25 17:24:06 +08:00
 idblife
有很多扫描的老资料 PDF 想批量转换成文本方便检索
2150 次点击
所在节点    问与答
19 条回复
shyray
2022-06-25 17:30:44 +08:00
DEVONthink
Nasei
2022-06-25 17:36:30 +08:00
谷歌和微软都有 orc 的云服务 api

https://cloud.google.com/vision/docs/pdf
huandaeren
2022-06-25 18:35:21 +08:00
OCRmyPDF
em70
2022-06-25 18:52:40 +08:00
ABBYY FineReader
俄罗斯人开发的神器,OCR 转换效果极好,淘宝几元钱就能买到,支持命令行可以批量操作,就是有点耗 CPU
sunnysab
2022-06-25 19:53:41 +08:00
我印象里 ABBYY 对古籍等印刷不是很清晰的书效果一般,也可能是因为我版本老。耗 CPU 是真的!

我也来蹲一个。
kokutou
2022-06-25 20:22:50 +08:00
ABBYY
idblife
2022-06-25 20:40:14 +08:00
@em70
不知道是不是支持 api 调用,想写个程序把 pdf 批量转换成文本然后写入到 mysql 里。
我去看看文档
idblife
2022-06-25 20:41:25 +08:00
@Nasei
试用过 aws 的,对中文适配不太好
idblife
2022-06-25 20:48:44 +08:00
@em70
看到你回复里写命令行操作了,哈哈,跳跃性阅读了
KDr2
2022-06-25 21:14:32 +08:00
imydou
2022-06-25 21:27:52 +08:00
anbyy finereader 有按月的订阅
paopjian
2022-06-25 22:27:44 +08:00
pdf 转成图片再 ocr 不就行了,pymupdf pdf 转图片挺快得
idblife
2022-06-25 23:44:53 +08:00
@paopjian
主要是 ocr 不好解决
paopjian
2022-06-25 23:50:16 +08:00
@idblife 没懂 ocr 有啥不好解决的,我用的 paddleocr,配环境有点麻烦,配好了就是脚本跑了
Features
2022-06-26 00:26:25 +08:00
阿里云,百度云 API 吧
国内的头部厂家
本地软件根本没法比
shakoon
2022-06-26 07:41:35 +08:00
wps pdf ,开会员
zhouwb
2022-06-26 08:42:19 +08:00
这种免费的效果都不会太好,wps 会员应该是最便宜的方案
nyaruko
2022-06-26 12:51:19 +08:00
Word ? 2019 及之后还有 Office 365 应该可以直接打开 PDF 的,但不清楚楼主这个 PDF 是什么情况

如果本身就能复制里面的文字应该可以直接转换成可编辑的 word 文档,如果里面是图片不好说

以及企业版的 O365 可以直接通过 SharePoint 索引 PDF 内的内容
idblife
2022-06-26 17:45:24 +08:00
@nyaruko
里面是图片的那种扫描文档

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/862155

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX