网站被拥有强大 ip 代理池的爬虫搞, ua 随机变化,怎么办

2022-02-18 20:20:01 +08:00
 herozzm

每个 ip 只访问 1-2 页面,没法封锁 ip ,ua 也是随机变化

8740 次点击
所在节点    信息安全
86 条回复
herozzm
2022-02-18 20:53:12 +08:00
@des 因为网站平时没有什么流量,突然来了上千个,非常固定的访问频率 也没有来路
Borch
2022-02-18 20:54:18 +08:00
范围时间内访问次数过多直接禁 ip ,关键字搜 iptable 防 ddos
des
2022-02-18 20:54:55 +08:00
这样的话确实没啥好办法,家宽封 ip 也不合适
herozzm
2022-02-18 20:55:05 +08:00
@Borch 一个 ip 就访问 2 次 就换了,怎么封锁?
vanton
2022-02-18 20:58:21 +08:00
@Borch #22
这个只能防那些非常蠢的爬虫。
现在爬虫都是单机只访问几页,iptables 基本没有方案可以防住。
plmsuper8
2022-02-18 21:01:25 +08:00
看到怀疑的扔假数据去
justs0o
2022-02-18 21:02:20 +08:00
justs0o
2022-02-18 21:04:41 +08:00
herozzm
2022-02-18 21:08:21 +08:00
@plmsuper8 没法怀疑啊,我能看出是爬虫就是网站没有啥流量,突然来了,固定的频率才看出来是爬虫
cybird
2022-02-18 21:08:50 +08:00
@Puteulanus TLS 指纹效果不大,有代理可以完美绕过
des
2022-02-18 21:14:39 +08:00
提供个思路,webrtc 检测 ip ,检测通过了才给访问。顺便用 websocket 检测是否有代理
Borch
2022-02-18 21:14:54 +08:00
@herozzm 可以统计下重复率,代理池要钱的,数量足够大没那么便宜的,封到它得不偿失
Borch
2022-02-18 21:15:41 +08:00
@vanton ip 代理池要钱的,封到对方不想花钱买 ip 爬了
Juszoe
2022-02-18 21:15:43 +08:00
只限注册用户访问,同时提高注册成本,比如验证码,或者接入第三方登录,把风控交给大厂来解决。看样子对方下了不少的成本来爬,看来你的数据挺值钱呀
abc8678
2022-02-18 21:16:35 +08:00
@DeWjjj 我以前用第三方工具,多线程下载视频。结果后来,网页不能看视频了,video 标签消失,下半部分的分享栏的排版错乱。是这两个网站:哔哩哔哩、YouTube
des
2022-02-18 21:16:57 +08:00
另外不要自动封禁,不定时批量封 ip
要让对方觉得你是手工处理的
herozzm
2022-02-18 21:19:35 +08:00
@Juszoe 某查查都来爬数据,真是长见识了
gstqc
2022-02-18 21:19:42 +08:00
加验证
点几个字或者移动到相应位置
herozzm
2022-02-18 21:20:51 +08:00
@gstqc 我还想给搜索引擎的蜘蛛数据呢
vanton
2022-02-18 21:24:27 +08:00
@Borch #33

ip 超级便宜,绝对白菜价。
1000 块钱爬你能爬到你怀疑人生。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/834902

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX