爬虫,带样式的内容

2019-08-05 16:30:22 +08:00
 dcalsky

页面中有一些内容,我需要爬下来。但是这些内容里可能包含了文字,图片,表格等等奇怪的东西。如果不把样式也一起爬出来然后渲染,那么不带样式的内容就会很丑,而且也没法很好地自适应移动端。

所以这种情况只能用 Puppeteer 等工具保存截图了对吗?而不是获取 html 代码。

1058 次点击
所在节点    问与答
3 条回复
dcalsky
2019-08-05 16:31:21 +08:00
内容里可能还有附件,那还得做个附件检测,然后自动 download 下来
holajamc
2019-08-05 16:33:42 +08:00
之前有一家的解决方法是保留 HTML 的 DOM 结构去教所有标签属性
dcalsky
2019-08-05 16:50:30 +08:00
@holajamc 如果不带 css 的话,还是会很丑,甚至错位。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/589242

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX