网站日志找到大量 Python -urllib/2.7 之类的,是爬虫吗?

2017-05-04 20:30:39 +08:00
 tianxiacangshen
2017-05-04 06:08:14 120.xx.xxx.xxx GET / - 80 - 58.211.2.120 Python-urllib/2.7 200 0 0 54

持续两三天了,每秒钟几十次记录,这是网站被攻击还是有人采集内容?
6833 次点击
所在节点    PHP
32 条回复
misaka19000
2017-05-04 21:11:01 +08:00
这爬虫还把自己给暴露出来。。。神奇
woshinide300yuan
2017-05-04 21:11:46 +08:00
这不是明显的该屏蔽的吗 - -
billlee
2017-05-04 21:54:55 +08:00
耿直的爬虫
notes
2017-05-04 22:17:57 +08:00
目测新手,用的还是自带的 urllib
Yc1992
2017-05-04 22:18:55 +08:00
脚本小子
wspsxing
2017-05-04 22:59:57 +08:00
UA 都不改一下,差评妥妥的。
ywgx
2017-05-04 23:06:42 +08:00
留着过年?
LokiSharp
2017-05-04 23:07:42 +08:00
估计故意的。。。看看有没有人处理
richardma
2017-05-05 01:08:54 +08:00
猖狂的爬虫,23333
tonychow
2017-05-05 01:11:52 +08:00
显然爬虫, 都不知道隐藏下 UA
araraloren
2017-05-05 08:29:07 +08:00
~~
再明显不过的爬虫了。。
封了 IP 呗
crackhopper
2017-05-05 08:43:18 +08:00
666666
yanzixuan
2017-05-05 08:50:08 +08:00
连 UA 都不知道改的,估计是新手。另外你们的网站不设置一个 Limiter,限制一下一天的总的访问次数么?
如果对方换 IP,你就限制下 1 分钟 /1 小时之内的访问次数吧。
tttty
2017-05-05 09:41:13 +08:00
请问一下,如果遇到爬虫直接封 IP,这样不是会导致共用公网 IP 的用户误伤吗.. 比如校园网、网吧什么的?
hard2reg
2017-05-05 09:52:20 +08:00
弱弱的问下,requests 的默认 ua 是啥
jy02201949
2017-05-05 09:52:42 +08:00
真是耿直啊,而且还在用 urllib,新手随便抄了网上哪个教程弄的爬虫吧
anexplore
2017-05-05 09:58:35 +08:00
使用验证码机制啊
pyufftj
2017-05-05 10:01:03 +08:00
@hard2reg 和 urllib 差不多,也带着 python 字样的,反正一眼就能识别出来的那种。。
pyufftj
2017-05-05 10:01:49 +08:00
@tttty 只封一个不就行了吗。。
kinghui
2017-05-05 10:08:30 +08:00
@tttty 有可能封一个省市, 因为某些省市的某个运行商可能就一个出口 ip.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/359181

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX