scrapy 如何爬取网页元素显示样式设置为不可见(即 style="display:none")标签下的内容

2018-10-28 23:52:35 +08:00
 godluo
如题,scrapy 新手请教,如何爬取网页元素显示样式设置为不可见(即 style="display:none")标签下的内容:
网页源码如下:
<dl class="xxx" style="display:none">
<li>
<span class="fl">text1</span>
<p class="fl">text11</p>
</li>
<li>
<span class="fl">text2</span>
<p class="fl">text22</p>
</li>
</dl>

请教如何操作?谢谢!
4064 次点击
所在节点    Python
6 条回复
Trim21
2018-10-29 00:31:22 +08:00
元素 display:none 会导致 xpath 选不到吗?
thedog
2018-10-29 00:56:06 +08:00
不可见,源码里还是有的,有什么影响吗?
zhijiansha
2018-10-29 09:45:39 +08:00
一样可以 xpath 取到的
xpresslink
2018-10-29 10:13:09 +08:00
不可见样式是指浏览器渲染方式不让人眼见,然而你爬虫取到的是网页的字符串。
Qzier
2018-10-29 13:40:44 +08:00
有什么区别吗?
godluo
2018-10-29 17:18:08 +08:00
scrapy shell ,元素 display:none 会导致 xpath 选不到。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/501995

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX