爬虫使用高匿代理会被服务器检测到本机吗?

2019-11-24 20:14:34 +08:00
 heyhumor

用 python3 的 requests 库写的爬虫,今天试了好多家代理 IP,没有爬几次就被拒绝访问。

UA 是动态的,cookie 是 session 获取的,IP 也是高匿的,究竟是怎么被检测出来的呢?百思不得其解

5700 次点击
所在节点    Python
22 条回复
66CCFF
2019-11-24 20:39:52 +08:00
前端搞个 js 很容易检测你这种呀。
yankebupt
2019-11-24 22:24:39 +08:00
你先找几台高匿 VNC 上去手动爬下试试……
有的行为检测连手动爬都过不了,更别提 python 了......
话说某剁手站我正常使用时都有 5%以上的验证码弹出率,不知是不是我长得很像爬虫……
nnnToTnnn
2019-11-25 09:18:51 +08:00
很简单,行为分析啊。 鼠标移动的轨迹,还有敏感的 IP 地址等等一些参数。

详细项目请参考 Google 的 “我不是机器人”
Lunatic1
2019-11-25 10:06:22 +08:00
如果被封说明 IP 的高匿还是失败的,假设开代理被检测也只是会封当前代理吧?可以先测试一下
hardcattle
2019-11-25 10:09:09 +08:00
亲,pyppeteer 了解一下,还有什么不能爬的网点。
lcy630409
2019-11-25 13:12:15 +08:00
不要用代理 本机直接爬,速度慢点
代理都是服务器的 ip 都是机房的,不说别的 判断你访问的 ip 是机房 ip 就要弹验证码了
letitbesqzr
2019-11-25 17:17:45 +08:00
先不说根据你的行为来判定的是否爬虫,就拿你代理 ip 来说,现在做风控的,都会把 ip 因素考虑进去,比如 ip 是否来自于机房 是否来自于 adsl 等等一系列,他们的大数据远比我们想到的丰富。
heyhumor
2019-11-26 08:23:34 +08:00
@66CCFF 我的请求可以返回正常数据的,而且每次请求都更换 IP,存在 js 检测吗
heyhumor
2019-11-26 08:26:07 +08:00
@Lunatic1 代理 IP 是动态更换的
heyhumor
2019-11-26 08:26:39 +08:00
@hardcattle pyppeteer 好像已经不维护了,问题很多吧
heyhumor
2019-11-26 08:27:10 +08:00
@nnnToTnnn 还有这种骚操作吗
heyhumor
2019-11-26 08:28:37 +08:00
@lcy630409 数据量挺大的,说实话
heyhumor
2019-11-26 08:29:26 +08:00
@lcy630409 我的倒不是验证码,正常返回几次之后直接 403 拒绝访问
superrichman
2019-11-26 08:59:57 +08:00
估计是你的 header 没处理好吧
wildplant
2019-11-26 09:03:06 +08:00
@heyhumor 那试一下 puppeteer 吧。反正写爬虫不也得会点 js 嘛。
heyhumor
2019-11-26 09:53:10 +08:00
@superrichman header 没处理好的话应该都不会返回数据吧,可是我返回了几次正确数据后才 403 的
heyhumor
2019-11-26 09:53:27 +08:00
@wildplant 好的,我试试
676529483
2019-11-26 10:11:04 +08:00
爬的是要登陆网站吗?如果是要登陆的,你 cookie 用的同一账号的,怎么代理也没用啊
scukmh
2019-11-26 10:24:28 +08:00
代理怎么加的代码有吗? requests 的代理有点小坑的。
QUIOA
2019-11-30 12:36:20 +08:00
如果是国外网站你可以去买那些住宅代理 IP

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/622687

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX