为什么 PDF 转 word 都使用 OCR 识别, 即使文本可复制?

2016-10-27 10:17:08 +08:00
 billytv

手头上有一份 PDF 想转为 word, pdf 不是扫描件, 本身只有数 MB 但有 100 多页全是文字. 该 PDF 没有权限限制, 直接使用 adobe reader 能选定文本并 100%准确复制.

试了 Acrobat Pro 和其他好几款 PDF 转 word 的软件, 都是使用 OCR 扫描文字, 识别率低得离谱. 为什么不是从 pdf 中 "提取" 文本, 而要费大力气 "扫描 + 识别"? 是我姿势不对还是当中有内幕?

3007 次点击
所在节点    问与答
12 条回复
chiensir1120
2016-10-27 10:52:14 +08:00
前两天刚手打了 70 页的文档
Izual_Yang
2016-10-27 11:06:56 +08:00
说明你的文档不是纯文字,可能是图像+文字层的 pdf ?不过从大小来看应该是纯文字格式啊
mpco
2016-10-27 12:16:46 +08:00
我也遇到了这个问题,同样有此疑问。
garth
2016-10-27 12:20:37 +08:00
没用对软件。几个收费的 PDF 转 WORD 软件都正常转换成文字。
liuxingou
2016-10-27 12:26:45 +08:00
@garth

能否 推荐几款?最好是跨平台的,支持 mac
leafleave
2016-10-27 12:28:12 +08:00
手机 Google 翻译直接拍照,复制,识别率 99 %
fen
2016-10-27 12:35:43 +08:00
找淘宝,分分钟给你转好还带校对排版
duola
2016-10-27 12:41:25 +08:00
@leafleave 英文的认别率应该会高一些吧。
duIT
2016-10-27 12:49:36 +08:00
中文 OCR 的话, Abby 识别率最高了
kingda
2016-10-27 13:10:14 +08:00
额,你试试在线转化试试! http://app.xunjiepdf.com/
garth
2016-10-27 14:29:46 +08:00
@liuxingou 我在 win 下使用 AnyBizSoft_PDF_to_Word
leafleave
2016-10-28 09:37:58 +08:00
@duola 中英文识别率都很高

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/315808

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX