pdf 复制出来是乱码 怎么解决

241 天前
 amiwrong123

pdf 是 mindshare 的书籍(出版时间大概 2000 年),看起来每个单词都是可以复制的,但是复制出来却是乱码。

用了好几种编辑器打开,复制都是乱码:wps 、SumatraPDF 、adobe reader 、zerote 。

网上看的方法: https://www.bilibili.com/read/cv23470141/ 查看了字体类型,去网站里搜,也搜不到。

PS:之前用 python 想读取这个 pdf 里面的内容,发现是程序读取出来都是乱码的。结果发现复制 都是乱码的。。

2026 次点击
所在节点    程序员
13 条回复
yinmin
241 天前
OCR
kokutou
241 天前
内嵌字体,字体和文字不是对应的,参考起点之类的在线加密。。。
yinmin
241 天前
运行 QQ 电脑版,然后用快捷键 ctrl-alt-A ,选中屏幕区域点击“屏幕识图”按钮,等几秒就能 copy 文字了,识别率还是比较好的。
Puteulanus
241 天前
不好识别的话淘宝还有代手打的
Ericcccccccc
241 天前
截图到微信里然后用自带的 ocr 吧
n1cogrv
241 天前
@kokutou #2 @amiwrong123
要真是这样的话,OP 直接考虑 OCR 吧,不要考虑从数字层面读取了。

可以看看 https://github.com/hiroi-sora/Umi-OCR
amiwrong123
241 天前
@n1cogrv #6
试了下这个项目,OCR 还可以。
哎,坑爹的 pdf
abc8678
241 天前
我也遇到过,在某之家问,还被嘲笑了,说复制都不会
amiwrong123
241 天前
@abc8678 #8
但比较神奇的是,在这个 pdf 里,搜索单词,却又是可以的。
cr51k2
241 天前
pdf 转 word 没,或者一定要纯文字吗?之前我报价做单,有些标书是乱扫描的,懒得搞就直接截图放 excel 然后报价了。
如果工作下一步骤不是机器的话,还可以变通一下。
Jwyt
241 天前
字体问题,无解的,最好最有效地办法就是 ocr
kergee
240 天前
OCR ,然后让 GPT 整理
296727
240 天前
有可能内外两层,跟蒙层一样

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/972473

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX