背景

目前正在做一些对网页进行分类、关键信息提取之类的机器学习模型。我们之前的做法是对网页进行自动截图，然后用 ocr 的方式提取每一个文本框的内容，以及在图中的相对位置，然后交给下游模型。但这样做就经历了 html 文字->图片 ->ocr 文字的过程，有点脱裤子放屁，而且还有很多信息损失.

问题

是否有一个工具或者类库，能以 html 为输入，输出 render tree 上面所有需要 render 的的文本内容 /图片，以及它们在整个 html 中的相对位置，比如 {"text": "Text 1", "x_pos": 30%, "y_pos":50%}这样的？

尝试调研了一下 rendertron/Puppeteer ，但我主要写 python 的，看不大懂它的 api,以及如果要达到我想要的效果应该怎么用，各位大佬有什么建议吗？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.