求助关于复杂 pdf 表格数据解析提取并清晰成 k:v 形式

需要从检测报告中抓取数据，检测报告为 pdf 格式，每月有几千份，报告的具体内容格式为：

第一页有报告编号、供应商信息、样品信息、时间、检测要求等信息；

第二页为检测依据，是一个表格的格式，有测试项目（一些化学成份，如铅、汞、红磷等）、测试方法、测试仪器，一共三列，行数不固定，取决于检测要求，这一页的数据不需要抓取；

从第三页开始为检测结果，也是表格的形式，有多个表格，从上往下排列，所以会有多页，表格有测试项目、结果、方法检出限，每个表格一共三列，行数不固定，这些数据需要抓取。

检测结果列举完毕，后面有检测流程之类不需要的信息。

需求是自动审核这些报告，所以需要抓取第一页及第三页开始的数据，然后加工成 K:V 的形式，将测试结果和数据库里的数据比较，来判断报告内容是否合规，达到自动审核的目的。
困难点是需要精确抓取数据，这种需求能否实现？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/981776

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

求助 关于复杂 pdf 表格数据解析提取 并清晰成 k:v 形式

求助关于复杂 pdf 表格数据解析提取并清晰成 k:v 形式