求助！这种需求应该如何实现？

需要从检测报告中抓取数据，检测报告为 pdf 格式，每月有几千份，报告的具体内容格式为：

第一页有报告编号、供应商信息、样品信息、时间、检测要求等信息；

第二页为检测依据，是一个表格的格式，有测试项目（一些化学成份，如铅、汞、红磷等）、测试方法、测试仪器，一共三列，行数不固定，取决于检测要求，这一页的数据不需要抓取；

从第三页开始为检测结果，也是表格的形式，有多个表格，从上往下排列，所以会有多页，表格有测试项目、结果、方法检出限，每个表格一共三列，行数不固定，这些数据需要抓取。

检测结果列举完毕，后面有检测流程之类不需要的信息。

需求是自动审核这些报告，所以需要抓取第一页及第三页开始的数据，然后加工成 K:V 的形式，将测试结果和数据库里的数据比较，来判断报告内容是否合规，达到自动审核的目的。
困难点是需要精确抓取数据，这种需求能否实现？

ZhuGeQing

2023-06-01 14:05:09 +08:00

都表格了，肯定是固定格式了，但是依然需要自己去清洗数据，可以从 pdf 的“源码”入手，筛选出所有的表格，判断表格是否是自己要的，如果是，那么就能根据行列标记拿到数据了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/944826

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.