为什么有的 PDF 复制粘贴出来会乱码? mac 和 ios 下

2021-04-07 21:31:09 +08:00
 cmichael

我在 safari 或 chrome 导出 pdf,然后放到 liquidtext ( ipad )选择中文摘要出来时乱码,或在 mac 的 preview 里,复制粘贴乱码

有的 pdf 好象没这个问题。

用 acrobat 分析了字体,有问题的 pdf 是用 pingfangsc,但这个字体我看 mac 和 ipad 都是自带的 我也改过 safari 的 encoding,无论 UTF8 还是 GB18030 都没用

有解决方案吗?

3146 次点击
所在节点    macOS
6 条回复
dodolee
2021-04-07 22:35:04 +08:00
只能 OCR
dodolee
2021-04-07 22:36:41 +08:00
ho121
2021-04-07 22:40:17 +08:00
可能本来就是乱码,然后用特殊的嵌入字体渲染
oldjerry
2021-04-08 10:15:02 +08:00
PDF 为了保持排版效果和尽量缩小文件尺寸,有时候字体是内嵌的,而且是用了那些字符嵌入哪些,相当于 PDF 文件里有个自建的字体,编码也是重新编的。英文还好字符少,一般都是对应的。这种情况下的中文很多都不能保留原字符编码了,拷贝出来就是乱码。
Anshay
2021-04-08 11:44:02 +08:00
可以考虑截图后识别文字。
cmichael
2021-04-11 23:16:32 +08:00
我说的前提是,我已经看过 pdf 内嵌字体了,里面是用了 pingfangSC,mac 和 ipad 都是自带的……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/768852

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX