Selenium 疑似被目标网站屏蔽了

2018-05-30 11:12:24 +08:00
 starvedcat

很久前用 Selenium 写了个爬虫,随便写着玩的,一直正常运行,今天突然不行了。现象是用 Selenium 去爬,直接给我返回空白页面:

<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body></body></html>

调用 FirefoxDriver 和 ChromeDriver 均是此现象

但是我如果直接用浏览器访问,使用 Firefox 和 Chrome 均可正常访问网站内容

刚上网查了下,说 Selenium 并不支持修改 request header。那么这种情况应该如何应对呢?

3647 次点击
所在节点    编程
5 条回复
colincat
2018-05-30 13:29:55 +08:00
UA 头可以改吧,再说你用 chromeDriver 应该就是调用浏览器去渲染啊
starvedcat
2018-05-31 00:39:46 +08:00
@colincat #1 对,就是调用了浏览器,然后只出现空白页面;但是如果我自己用 Chrome 访问就正常
colincat
2018-06-07 10:48:47 +08:00
@starvedcat https://www.zhihu.com/question/35547395 给你一个连接吧,参考
eastrd
2018-06-13 09:26:09 +08:00
也可以根据鼠标轨迹来判断是否是 Bot
starvedcat
2018-06-13 15:24:45 +08:00
@eastrd #4 访问那个网址,直接就返回空白页面,所以跟鼠标轨迹没关系

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/458874

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX