爬虫拉勾网的反爬

2018-10-22 11:40:43 +08:00
 Ewig
最近在爬拉勾网 ,但是在爬的过程中遇到好像是滑动验证码
res = requests.get(companyLink, headers=header, cookies=get_cookies(cookies_str))
这是请求带的参数

https://passport.lagou.com/login/login.html?msg=validation&uStatus=2&clientIp=47.105.103.225 请求的时候回偶尔跳转这个登陆页面
所以我猜是反爬 有人遇到过吗?

我试过本地稳定 ip 和动态代理,都会有这种情况发生
5037 次点击
所在节点    Python
12 条回复
PulpFunction
2018-10-22 11:45:01 +08:00
login 不就是登录吗

这种网站应该有反爬吧
violence123456
2018-10-22 11:51:48 +08:00
依稀记得当年被拉勾禁了一段时间 ip23333
Ewig
2018-10-22 11:53:01 +08:00
@PulpFunction 我知道有反爬,所以才来问大家最近有人爬过没有
cuzfinal
2018-10-22 14:34:29 +08:00
拉钩的反爬应该挺难弄的,毕竟拉钩好多数据就是自己爬的。
wersonliu9527
2018-10-22 14:43:53 +08:00
我们公司爬烂了,长期爬最好用代理 ip,一次的话本地 ip 加 cooki 就行
post 请求 'https://www.lagou.com/jobs/positionAjax.json?px=new&needAddtionalResult=false' 这个接口
参数下面自己循环变换
data = {
'first': 'true',
'pn': 页码,
'kd': 关键字)
}
LeungV2
2018-10-22 15:16:46 +08:00
爬虫 爬虫,听起来很像很好玩
571726193
2018-10-22 15:55:29 +08:00
谁能给我详细解释一下爬虫 ,干什么用的 ,通俗易懂的
zxcvsh
2018-10-22 16:04:34 +08:00
@571726193 用代码替代浏览器手动访问网页,并将目标网页元素 down 下来
Loooom
2018-10-22 16:49:51 +08:00
@wersonliu9527 低调低调...
Ewig
2018-10-22 17:23:19 +08:00
@wersonliu9527 我用本地 ip 会 302 跳转 验证码这是咋回事
ppi
2018-10-23 09:56:53 +08:00
"success": false,
"msg": "您操作太频繁,请稍后再访问",
Ewig
2018-10-23 10:18:13 +08:00
@ppi 你发的这是啥意思

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/499775

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX