天猫爬虫封禁 一个都不给我

2019-03-04 15:07:02 +08:00
 Oane

爬取天猫评论,连第一个都没爬完就封了 想问延长休息时间有用吗? 代理池没有试过不知道有没有效果

4452 次点击
所在节点    Python
10 条回复
lhx2008
2019-03-04 15:09:57 +08:00
先把浏览器特征做好吧,可以爬几页,然后是代理池,哪有这么容易。
www5070504
2019-03-04 15:51:58 +08:00
代理池都不上的。。。
shapl
2019-03-04 15:54:52 +08:00
用浏览器插件的形式,让用户浏览器去爬。。
当你的插件用户足够多,就行了。。
fomeiherz
2019-03-04 18:13:57 +08:00
@shapl 具体怎么实现
shapl
2019-03-04 18:26:25 +08:00
@fomeiherz #4 chrome 插件吖。在用户浏览器后台运行就行了。
lusi1990
2019-03-05 09:00:49 +08:00
阿里反爬做的很好了,没个两个天搞不完,代理肯定要上,多个用户。httpbin.org 看看自己的请求和浏览器 差多少
Johnson66
2019-03-05 14:16:17 +08:00
评论是需要登陆 有 cookie 才能拿到的
Johnson66
2019-03-05 14:17:32 +08:00
延长时间有用~~
ranlele
2019-03-06 11:57:13 +08:00
@lhx2008 浏览器特征 最主要做什么方面啊。
cruithne
2019-03-07 09:53:13 +08:00
带着 cookie 进行请求吧,阿里系的都不好爬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/540866

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX