除了用 selenium 模拟外,其他还有好的办法吗?
1
sunwei0325 2018-04-18 10:42:57 +08:00
selenium 一般用来爬一些 js 搞上去的内容, 而不是解决爬虫被屏蔽的, 解决被屏蔽的方法一般是代理 ip 池, cookie 池, 随机 user-agent 等
|
2
lixuda OP @sunwei0325 ip 没有封,user-agent 随机无效,只能打开浏览器访问就可以。
|
3
leir 2018-04-18 10:54:53 +08:00 via iPhone
什么网站?
|
4
lixuda OP @leir 多 requests 几次 就被认为是爬虫,浏览器是正常的。http://www.ledsmagazine.com/articles/2018/04/lrc-s-mark-rea-will-lead-ul-circadian-lighting-task-group.html
|
5
est 2018-04-18 11:13:46 +08:00
技术不过关啊。。。。
|
7
huweic 2018-04-18 11:24:46 +08:00 via Android
该有的 Header 都加上
|
8
kimchan 2018-04-18 11:26:52 +08:00
mark, 之前也是遇过一个网站, 用爬虫各种伪装了都不行, 用浏览器访问却可以. 最后也是只能用 selenium😂😂. 看看大神们有什么更好的方法
|
10
magicO 2018-04-18 11:42:34 +08:00 via Android
抓包看看浏览器访问时的包
|
11
alen 2018-04-18 11:59:44 +08:00
限速控制并发
|
12
takato 2018-04-18 12:23:24 +08:00
把并发间隔整形成高斯分布试试。
|
13
wqzjk393 2018-04-18 12:27:53 +08:00 via iPhone
顺便问一下,像斗鱼这种第一次爬就直接屏蔽掉,返回 404 的,该怎么处理?
|
15
em70 2018-04-18 12:41:04 +08:00
说明伪装得不像,一般防盗链就 user-agent 和 referer 两个参数来判断,这两个都不填,傻子都知道你是机器人
|
17
wplct 2018-04-18 13:03:58 +08:00
并不是学艺不精,看来一下这个网址的反爬确实很严格
|
18
wplct 2018-04-18 13:06:07 +08:00
各种加载 js 运行,懒得搞的话还是调用浏览器吧
|
19
wplct 2018-04-18 13:11:33 +08:00
如果是要请求较多的数据的话,记得保存 cookies 会比较好一些
|
20
vtwoextb 2018-04-18 14:05:31 +08:00
重启路由器 更换家里的动态 ip https://github.com/hizdm/dynamic_ip
|
21
JackYao 2018-04-18 14:13:05 +08:00
估计 js 检测吧, 能执行才是浏览器。
|
22
summerwar 2018-04-18 14:33:55 +08:00
贴地址 不然靠猜吗
|
23
craftx 2018-04-18 16:54:32 +08:00
请先说明是哪种方式的屏蔽
|
24
jamesfuxk 2018-04-18 17:29:09 +08:00
用抓包软件,设置好 header 啊。可以减少被封的概率的
|
25
cuberlzy 2018-04-18 17:46:27 +08:00 2
|
26
cuberlzy 2018-04-18 17:47:00 +08:00
浏览器也想被提示爬虫可以试试把 Cookie 清掉 这样多半就会提示你输验证码啦
|
28
Leigg 2018-04-18 20:38:56 +08:00
UA 是比较基本的反爬,最好清除浏览器 cookie,打开 F12-network,再打开网站,这个时候分析一下请求的 method、header 一般就能找到关键所在
|
29
Leigg 2018-04-18 20:42:10 +08:00
你是要抓这个 URL 中的什么信息,中间的正文应该是可以直接获取的
|
30
golmic 2018-04-18 21:33:55 +08:00 via Android
浏览器可以,requests 就一定可以。愿意付费可以联系我,微信公众号 pydatame 有联系方式
|
31
qqpkat2 2018-04-19 01:14:34 +08:00
js 加密检测,了解一下
|
32
jimmyczm 2018-04-19 09:22:04 +08:00
抓包时发现应该是这个 pwhqfbsrcqtcbabfzrvevcde.js 文件作怪,在这个文件后面浏览器和 selenium 的内容变了
|
33
soho176 2018-04-23 09:28:25 +08:00
用火车头试试看!
|
34
leir 2018-04-23 14:52:46 +08:00 via iPhone
@lixuda 搞定了么?简单得话,火车头就可以了,要想分析的话可以看看楼 js,没有混淆,能够明显看到检查
|