最近准备爬取的一个网站遇到的瓶颈

2018-09-27 10:40:39 +08:00
 wc110302
发现该网站似乎是用了 distil networks 的反爬虫服务, 如果需要拿到数据就必须带上 cookie,不带 cookie 的请求都会被直接返回 sessionStorage.setItem('distil_referrer', document.referrer); 而这个 cookie 的失效时间又很快,只有 5 分钟左右,并且用的次数多了,大概四五次也会失效,并且我使用 fiddler 跟踪,拿到所有 cookie 参数后,利用这个 cookie 依然无法拿到数据,请问广大社友们有遇见过这种情况吗?
5177 次点击
所在节点    Python
38 条回复
wc110302
2018-09-27 10:48:16 +08:00
https://i.loli.net/2018/09/27/5bac44a20e9c0.png 这是一直关于 distil networks 的 fiddler 跟踪图片 p 参数记录的是浏览器指纹 我现在多次使用这个 p 参数 是能拿到返回值的 但是这个返回值拿不到正确的数据
ericgui
2018-09-27 12:32:46 +08:00
@wc110302 做爬虫确实都很费劲的,毕竟不是 debug,有报错信息什么的
nooper
2018-09-27 13:23:59 +08:00
Webdriver hub
exip
2018-09-27 13:34:51 +08:00
是不漏了哪个参数。祝你好运。
wc110302
2018-09-27 13:40:37 +08:00
@ericgui 是挺费劲的 啥都要学一点 js 要学 接口要会做 app 端 wechat 端 pc 端得会抓包 偶尔还得做个 GUI 什么的
vegetta
2018-09-27 13:42:36 +08:00
selenium 试下? 虽然效率不高
wc110302
2018-09-27 13:43:12 +08:00
@nooper 是尝试过的 但是效率太低了 不符合预期 并且并发的情况也不太理想
wc110302
2018-09-27 13:46:18 +08:00
@exip 参数应该没有遗漏 我在使用某一个 ip 拿到所有 cookie 之后 如果我使用这个 ip 真实地用浏览器访问了该网站 那么我之前拿到的那个 cookie 就能使用一段时间 具体原理我也不太明白 也许是他们记录在了服务器上
wc110302
2018-09-27 13:47:27 +08:00
@vegetta selenium 就是效率太低了 并且该网站会检测无头 无 js 这样也加大了服务器的负载
huaerxiela
2018-09-27 14:04:45 +08:00
企鹅 base64:MTk3NDMwNDU5OA==
dapengzhao
2018-09-27 14:09:18 +08:00
请问是什么网站方便说下吗?
qwertty01
2018-09-27 14:12:23 +08:00
这没办法。除了使用动态浏览器,就是得分析网站的 JS 了。
richieboy
2018-09-27 14:27:34 +08:00
cookies 是 js 动态生成的,你光复制不行吧
onexpiece
2018-09-27 14:33:52 +08:00
请问什么网站方便说下?
ctro15547
2018-09-27 14:34:45 +08:00
用 selenium 生产 cookie 存着,爬虫去拿 cookie,超时或者超次数就换一个,这样多线程几个 seleniumdriver 来生产的 cookie,效率应该比只用 selenium 好不少
wc110302
2018-09-27 15:17:01 +08:00
@richieboy cookie 是动态生成的没错 我用相同的 P 参数每次从 response headers 里面拿到的 cookie 都不一样 然后我将这些 cookie 拼接之后和正常生成的 cookie 对比了一下 是一模一样的 但是用这个 cookie 就无法拿到数据 而真实的 cookie 就可以 并且有趣的是 我如果用该 ip 去真实访问了这个网站 这个 cookie (我自己 requests 伪造生成的)也可以用了
jtwor
2018-09-27 15:38:39 +08:00
meituan 好像也是这样 cookie 还好弄 只是 5 分钟后触发防爬虫的原因不太确定 奥塞头:(
nooper
2018-09-27 15:44:42 +08:00
加我 qq 收费解决,3655 o4o29
handan
2018-09-27 16:14:39 +08:00
问一下 ,是哪个网站??
yy461530593
2018-09-27 17:41:24 +08:00
先用浏览器正常请求操作,抓包看请求过程,模拟这个请求过程,如果浏览器操作也是会更新 cookies,那代码上也只能跟着更新

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/493052

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX