最近准备爬取的一个网站遇到的瓶颈

发现该网站似乎是用了 distil networks 的反爬虫服务，如果需要拿到数据就必须带上 cookie，不带 cookie 的请求都会被直接返回 sessionStorage.setItem('distil_referrer', document.referrer); 而这个 cookie 的失效时间又很快，只有 5 分钟左右，并且用的次数多了，大概四五次也会失效，并且我使用 fiddler 跟踪，拿到所有 cookie 参数后，利用这个 cookie 依然无法拿到数据，请问广大社友们有遇见过这种情况吗？

失效

社友

爬虫

38 条回复 • 2019-12-21 13:57:07 +08:00

wc110302

2018-09-27 10:48:16 +08:00

https://i.loli.net/2018/09/27/5bac44a20e9c0.png 这是一直关于 distil networks 的 fiddler 跟踪图片 p 参数记录的是浏览器指纹我现在多次使用这个 p 参数是能拿到返回值的但是这个返回值拿不到正确的数据

ericgui

2018-09-27 12:32:46 +08:00

@wc110302 做爬虫确实都很费劲的，毕竟不是 debug，有报错信息什么的

nooper

2018-09-27 13:23:59 +08:00 via iPad

Webdriver hub

exip

2018-09-27 13:34:51 +08:00 via Android

是不漏了哪个参数。祝你好运。

wc110302

2018-09-27 13:40:37 +08:00

@ericgui 是挺费劲的啥都要学一点 js 要学接口要会做 app 端 wechat 端 pc 端得会抓包偶尔还得做个 GUI 什么的

vegetta

2018-09-27 13:42:36 +08:00

selenium 试下？虽然效率不高

wc110302

2018-09-27 13:43:12 +08:00

@nooper 是尝试过的但是效率太低了不符合预期并且并发的情况也不太理想

wc110302

2018-09-27 13:46:18 +08:00

@exip 参数应该没有遗漏我在使用某一个 ip 拿到所有 cookie 之后如果我使用这个 ip 真实地用浏览器访问了该网站那么我之前拿到的那个 cookie 就能使用一段时间具体原理我也不太明白也许是他们记录在了服务器上

wc110302

2018-09-27 13:47:27 +08:00

@vegetta selenium 就是效率太低了并且该网站会检测无头无 js 这样也加大了服务器的负载

huaerxiela

2018-09-27 14:04:45 +08:00

企鹅 base64：MTk3NDMwNDU5OA==

dapengzhao

2018-09-27 14:09:18 +08:00

请问是什么网站方便说下吗？

qwertty01

2018-09-27 14:12:23 +08:00

这没办法。除了使用动态浏览器，就是得分析网站的 JS 了。

richieboy

2018-09-27 14:27:34 +08:00

cookies 是 js 动态生成的,你光复制不行吧

onexpiece

2018-09-27 14:33:52 +08:00

请问什么网站方便说下？

ctro15547

2018-09-27 14:34:45 +08:00

用 selenium 生产 cookie 存着，爬虫去拿 cookie，超时或者超次数就换一个，这样多线程几个 seleniumdriver 来生产的 cookie，效率应该比只用 selenium 好不少

wc110302

2018-09-27 15:17:01 +08:00

@richieboy cookie 是动态生成的没错我用相同的 P 参数每次从 response headers 里面拿到的 cookie 都不一样然后我将这些 cookie 拼接之后和正常生成的 cookie 对比了一下是一模一样的但是用这个 cookie 就无法拿到数据而真实的 cookie 就可以并且有趣的是我如果用该 ip 去真实访问了这个网站这个 cookie （我自己 requests 伪造生成的）也可以用了

jtwor

2018-09-27 15:38:39 +08:00

meituan 好像也是这样 cookie 还好弄只是 5 分钟后触发防爬虫的原因不太确定奥塞头:(

nooper

2018-09-27 15:44:42 +08:00 via Android

加我 qq 收费解决，3655 o4o29

handan

2018-09-27 16:14:39 +08:00

问一下，是哪个网站？？

yy461530593

2018-09-27 17:41:24 +08:00

先用浏览器正常请求操作，抓包看请求过程，模拟这个请求过程，如果浏览器操作也是会更新 cookies，那代码上也只能跟着更新

wc110302

2018-09-27 17:49:24 +08:00

@handan @onexpiece @dapengzhao https://www.flyscoot.com/zh

valord577

2018-09-27 18:09:47 +08:00

我这里有个思路 selenium + headless chrome 每 3 分钟打开网页从 chrome 拿到 cookie

https://github.com/valord577/taobaoke

这个虽然是用 java 写的但是封装 selenium 的思路 python 也是通用的

wc110302

2018-09-27 18:17:12 +08:00

@valord577 感谢分享。但是 selenium 效率确实是太低了并且消耗资源较多抓取数据的量又比较大单一个 cookie 只能使用 4-5 次所以暂时不考虑走 selenium 实在不行的话就只能走 app 端了

xiaozizayang

2018-09-28 09:20:20 +08:00

试试这个？ pyppeteer

wc110302

2018-09-28 11:56:42 +08:00

@xiaozizayang 尝试了一下--！会被反爬虫识别出现验证码
Pardon Our Interruption
['//cdn.distilnetworks.com/images/anomaly-detected.png']

angkee

2018-10-07 10:26:56 +08:00

老哥，我也遇到了这个问题，能不能加个微信聊下

wc110302

2018-10-08 09:32:21 +08:00

@angkee 可以啊留下你的 v

locoz

2018-10-08 12:24:30 +08:00

试试 APP ？

wc110302

2018-10-08 14:31:41 +08:00

@locoz 现在是在尝试 app 了，pc 端的搞不定--！

stephen2018

2018-10-16 22:53:14 +08:00 via Android

我最近遇到用 selenium 被网站识别出来，我设置了 useragent，加了代理，依然被识别出来，有点头疼，可以交流下吗

wc110302

2018-10-17 16:08:56 +08:00

@stephen2018 可以尝试下 pyqt

RAKU318

2018-11-28 14:21:48 +08:00

想问下题主搞定了吗？

wc110302

2018-11-29 09:16:00 +08:00

@RAKU318 已经搞定了模拟生成 p 参数即可

lzh414895156

2019-01-02 20:30:39 +08:00

@wc110302 请问题主现在还可以抓到数据吗？可以加个微信交流下吗？

wc110302

2019-01-03 09:37:54 +08:00

@lzh414895156 留下你的联系方式咯

lzh414895156

2019-01-03 09:43:57 +08:00

@wc110302 qq414895156

luzhizheng

2019-12-06 18:34:46 +08:00

楼主加我 QQ!,我也遇到这个问题啦!! bs64:OTkzMjgyMTM4

luzhizheng

2019-12-21 13:57:07 +08:00

这楼主是一个搞外包的,大家不要给骗了,加了 QQ 以后一直在忽悠,没两句就开始装逼,然后要我搞外包.
技术问题一个都不回答,问什么都说很简单自己搞,要不然就找我外包,真是没见过这种人,一点想探讨的精神都没有,还跟我装起逼来,说多了就开始骂我菜鸡,菜鸟,真的是给点阳光就灿烂,懂一点就开始装逼,你爸妈没有教过你做人的道理吗?真是悲哀