谈谈网易云的反爬机制

2018-11-09 19:34:07 +08:00
 smallgoogle

最近想做大数据分析; 所以想爬取了网易云的所有用户信息;

那么重点来了,我发现,网易云有单模块防御机制; 比如个人用户主页,我爬取了大概 5W+左右,反爬机制就生效了, 不管访问哪一个用户的主页,都是返回 404,连我自己的个人中心都无法登录了;

我试过 cookie 变换,但是得出结论绝对是 IP 被黑了。 请问各位,有没有相关经验。 到底是不是黑了 IP。。。。。

6426 次点击
所在节点    Python
24 条回复
sunzongzheng
2018-11-09 19:38:54 +08:00
我被 ban 过 ip,大概 ban 了 7 到 10 天左右
smallgoogle
2018-11-09 19:59:12 +08:00
@sunzongzheng 不是。那么认真的么? 7-10 天?
cyrbuzz
2018-11-09 20:49:08 +08:00
网易云的反爬貌似是基于账号的,换 cookies 是有用的吧?
Baboonowen
2018-11-09 21:01:29 +08:00
来个爬虫代码 让大伙验证一下 嘿嘿
CivAx
2018-11-09 21:05:10 +08:00
去随便一个云买个小鸡跑一下就知道了
locoz
2018-11-09 21:23:43 +08:00
不换 IP 又不在限制范围内当然会被封 IP 啊。。
smallgoogle
2018-11-09 22:03:39 +08:00
@cyrbuzz 是 IP 挂了。cookie 换过了。无效。
masterjoess
2018-11-09 22:52:36 +08:00
虽然让你爬了 5W+了,但你该不会是想用单 IP 爬全站吧?全国混拨了解一下
sunzongzheng
2018-11-09 23:03:43 +08:00
@smallgoogle 我上次是 for 循环无延时调的音乐接口,在服务器上,然后被 ban 了这么久
LukeChien
2018-11-09 23:04:15 +08:00
网易云有啥好爬的
whoami9894
2018-11-09 23:58:20 +08:00
我记得原来爬 ins,cookie+ip+请求间隔反爬,接口还乱糟糟,头疼
smallgoogle
2018-11-10 02:32:56 +08:00
@sunzongzheng 目前来看。我到现在还没解封。估计是六七天才行了。
smallgoogle
2018-11-10 02:33:12 +08:00
@masterjoess 大概是我太单纯了。
smallgoogle
2018-11-10 17:00:36 +08:00
这两天摸出结论:

网易云是双封,先在你的 cookies 写入封禁的字段,然后封禁 IP ;
如果你换了 IP,不清理 cookies,一样死;

所以解封的办法是,先清理 cookie,然后换 IP。然后访问就 OK 了。
cxa
2018-11-12 16:50:07 +08:00
现在还有写爬虫不叫代理的么。。。
bjt5521
2018-11-14 11:43:49 +08:00
我是做代理 IP 的,我们有个企业客户,成立了一个攻坚反爬部门,专门研究怎么绕过风控抓取数据。现在风控台厉害了
smallgoogle
2018-11-16 01:57:58 +08:00
@bjt5521 成功绕过了么?
skywingfs
2018-11-19 17:30:16 +08:00
搞爬虫你需要代理池
kr380709959
2018-11-22 16:07:42 +08:00
你这单 ip 单 cookie 想爬全站么?
我一个新手爬拉钩都用了十几个 cookie+代理隧道爬取,爬了 50 万+的数据,压根没毛病。
楼上有个哥们说得对,随机 cookie 列表+代理 ip+随机间隔请求时间,基本上对付中小网站没问题了,除非你想碰阿里这种怪物。
find456789
2018-11-29 11:00:24 +08:00
@kr380709959

请问您这十几个 cookie,是同一个账号生成的, 还是 十几个不同账号生成的。 谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/506255

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX