最近准备爬取的一个网站遇到的瓶颈

2018-09-27 10:40:39 +08:00
 wc110302
发现该网站似乎是用了 distil networks 的反爬虫服务, 如果需要拿到数据就必须带上 cookie,不带 cookie 的请求都会被直接返回 sessionStorage.setItem('distil_referrer', document.referrer); 而这个 cookie 的失效时间又很快,只有 5 分钟左右,并且用的次数多了,大概四五次也会失效,并且我使用 fiddler 跟踪,拿到所有 cookie 参数后,利用这个 cookie 依然无法拿到数据,请问广大社友们有遇见过这种情况吗?
5200 次点击
所在节点    Python
38 条回复
wc110302
2018-09-27 17:49:24 +08:00
valord577
2018-09-27 18:09:47 +08:00
我这里有个思路 selenium + headless chrome 每 3 分钟打开网页 从 chrome 拿到 cookie

https://github.com/valord577/taobaoke

这个虽然是用 java 写的 但是封装 selenium 的思路 python 也是通用的
wc110302
2018-09-27 18:17:12 +08:00
@valord577 感谢分享。 但是 selenium 效率确实是太低了 并且消耗资源较多 抓取数据的量又比较大 单一个 cookie 只能使用 4-5 次 所以暂时不考虑走 selenium 实在不行的话就只能走 app 端了
xiaozizayang
2018-09-28 09:20:20 +08:00
试试这个? pyppeteer
wc110302
2018-09-28 11:56:42 +08:00
@xiaozizayang 尝试了一下--! 会被反爬虫识别 出现验证码
Pardon Our Interruption
['//cdn.distilnetworks.com/images/anomaly-detected.png']
angkee
2018-10-07 10:26:56 +08:00
老哥,我也遇到了这个问题,能不能加个微信聊下
wc110302
2018-10-08 09:32:21 +08:00
@angkee 可以啊 留下你的 v
locoz
2018-10-08 12:24:30 +08:00
试试 APP ?
wc110302
2018-10-08 14:31:41 +08:00
@locoz 现在是在尝试 app 了,pc 端的搞不定--!
stephen2018
2018-10-16 22:53:14 +08:00
我最近遇到用 selenium 被网站识别出来,我设置了 useragent,加了代理,依然被识别出来,有点头疼,可以交流下吗
wc110302
2018-10-17 16:08:56 +08:00
@stephen2018 可以尝试下 pyqt
RAKU318
2018-11-28 14:21:48 +08:00
想问下题主搞定了吗?
wc110302
2018-11-29 09:16:00 +08:00
@RAKU318 已经搞定了 模拟生成 p 参数即可
lzh414895156
2019-01-02 20:30:39 +08:00
@wc110302 请问题主现在还可以抓到数据吗?可以加个微信交流下吗?
wc110302
2019-01-03 09:37:54 +08:00
@lzh414895156 留下你的联系方式咯
lzh414895156
2019-01-03 09:43:57 +08:00
@wc110302 qq414895156
luzhizheng
2019-12-06 18:34:46 +08:00
楼主加我 QQ!,我也遇到这个问题啦!! bs64:OTkzMjgyMTM4
luzhizheng
2019-12-21 13:57:07 +08:00
这楼主是一个搞外包的,大家不要给骗了,加了 QQ 以后一直在忽悠,没两句就开始装逼,然后要我搞外包.
技术问题一个都不回答,问什么都说很简单自己搞,要不然就找我外包,真是没见过这种人,一点想探讨的精神都没有,还跟我装起逼来,说多了就开始骂我菜鸡,菜鸟,真的是给点阳光就灿烂,懂一点就开始装逼,你爸妈没有教过你做人的道理吗?真是悲哀

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/493052

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX