[求助] Python 读取电子发票 PDF 文件数据缺失

2020-01-14 14:14:55 +08:00

BryceBu

我用 pdfplumber 之类的库读取文件，仅能读到一点点数据

用 pdf2image 转化成图片就是下面这样 👇

在线 PDF 转 IMG 倒是完整的数据，可是不符合使用要求

我怀疑是不是因为签名啥的，因为用 WPS 打开的时候有提示来着 👇

请问有没有解决办法？

3511 次点击

所在节点

9 条回复

xiri

2020-01-14 14:38:01 +08:00

pdf 对信息自动化处理来说简直是噩梦🙃

EricInBj

2020-01-14 14:39:02 +08:00

应该有错误输出的，大概率是字体缺失？

BryceBu

2020-01-14 15:11:34 +08:00

@EricInBj 感谢我发现没解析出来的字体都是 STSong-Light

我在网上下载了这个字体然后安装，结果都是华文宋体？？？

然后再读取 PDF 结果还是缺失的

PopRain

2020-01-14 15:25:46 +08:00

我觉得是类库不支持嵌入字体

Rorysky

2020-01-14 15:26:39 +08:00

pymupdf 试试

BryceBu

2020-01-14 17:15:10 +08:00

刚刚在 Ubuntu 上试了一下，可以识别了

我下载的 STSong-light 字体文件都不能安装

看来原因还是 Windows 不支持这个字体？

huaxie1988

2020-07-09 17:54:57 +08:00

为什么我 windows 和 centos 都读不出来中文

BryceBu

2020-07-14 12:00:01 +08:00

@huaxie1988 #7 先用工具识别出 pdf 的字体，再查你的系统支不支持这个字体

aec4d

2020-07-14 12:01:39 +08:00

先用工具把 PDF 文件标准化(比如内嵌字体)，在用商业 PDF 软件尝试编辑，如果商业 PDF 软件能编辑你想要的文本，说明这个文本可以程序解析，并不是一张图片
接下来就是用这种工具 https://github.com/pdfminer/pdfminer.six 读取文本

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.