谈谈网易云的反爬机制

2018-11-09 19:34:07 +08:00
 smallgoogle

最近想做大数据分析; 所以想爬取了网易云的所有用户信息;

那么重点来了,我发现,网易云有单模块防御机制; 比如个人用户主页,我爬取了大概 5W+左右,反爬机制就生效了, 不管访问哪一个用户的主页,都是返回 404,连我自己的个人中心都无法登录了;

我试过 cookie 变换,但是得出结论绝对是 IP 被黑了。 请问各位,有没有相关经验。 到底是不是黑了 IP。。。。。

6442 次点击
所在节点    Python
24 条回复
kr380709959
2018-11-29 13:16:08 +08:00
@find456789 我用的是一个账号生成的 cookie,但是不知道网站是不是对 cookie 有限制的。你也可以生成十几个账号对应的 cookie 来爬,那样反爬就更难处理了
kr380709959
2018-11-29 13:17:16 +08:00
@find456789 我简单说下我的反反爬思路吧。
1.随机 UA
2.随机 time.sleep
3.随机 cookie
4.代理隧道动态 ip
smallgoogle
2018-11-30 04:49:53 +08:00
@kr380709959 其实网易云的反爬除了 IP 还有 cookie。如果 IP 被墙了。Cookie 也是有问题的。。就算你换 IP,不清除 cookie。依然被墙。UA 倒是没限制。
kr380709959
2018-11-30 09:49:56 +08:00
@smallgoogle 那就要仔细研究下了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/506255

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX