google 爬虫太疯狂了,屏蔽它又没排名,放开又被爬死,还不能控制它的爬取频率,怎么办?

2024-06-05 10:38:02 +08:00
 herozzm
google 爬虫爬起来真的就是 cc 攻击,以前的 google 的站长后台可以控制爬取频率,被下了,真是无语,在服务端 nginx 控制频率不理想,因为限制了 google 爬虫的频率,大部分时候是返回 502 ,google 站长后台就一直提示 502 ,不给排名
2861 次点击
所在节点    问与答
22 条回复
qqjt
2024-06-05 11:20:32 +08:00
怎么能被 bot 爬死啊,这体量羡慕了
dzdh
2024-06-05 11:22:52 +08:00
同问。啥体量能让 bot 爬死。啥服务器配置啊。
potatowish
2024-06-05 11:27:49 +08:00
字节的 bot 才叫疯狂
daohanghao
2024-06-05 11:31:21 +08:00
我都多来爬一下,你倒好,不需要。。。
herozzm
2024-06-05 11:32:14 +08:00
@qqjt
@dzdh
数据是即时的,爬虫真的很疯狂,每秒估计有上百的并发
herozzm
2024-06-05 11:40:05 +08:00
@potatowish 字节的反而不咋地,一天 10 个以内,流量根本没有
darkengine
2024-06-05 11:50:21 +08:00
谷歌一秒上百次的爬?什么站这么牛啊 。。。
herozzm
2024-06-05 11:53:41 +08:00
@darkengine 不是一个站,是几个站放在一台服务器,每个站 10 个左右,加起来的并发,他们共用 cpu 资源
HackerQED
2024-06-05 12:33:08 +08:00
@herozzm 老哥,你考不考虑前端放 vercel 之类的托管平台,需要计算的再单独到你服务器?

托管平台总不会爬挂了,看你本体流量也不是很大,不费钱。
nomagick
2024-06-05 12:43:12 +08:00
垃圾站是吧。。
AlexRoot
2024-06-05 13:52:56 +08:00
@nomagick #10 感觉一语道破。
knva
2024-06-05 13:57:09 +08:00
垃圾站能不能 414
wonderfulcxm
2024-06-05 14:02:46 +08:00
没经历的哥们很难想象,它是真的会很疯狂,我们网站也经历过,只能限制速率,不要返回 502 ,返回 503 。就一个新闻网站,有编辑团队和纸版杂志,不是什么垃圾站,话说这跟垃圾站有什么关系?
rambeaufinal
2024-06-05 14:12:40 +08:00
不能升级一下服务器的配置吗?
NewYear
2024-06-05 14:18:49 +08:00
robots.txt 不是可以规定爬取频率么,实在觉得占用性能,搞缓存啊,静态化啊
herozzm
2024-06-05 16:38:51 +08:00
@NewYear robots.txt 不行啊,我加入了限制,google 站长后台直接提示 robots.txt 错误,你是什么格式呢?
herozzm
2024-06-05 16:43:06 +08:00
@wonderfulcxm 我将 503 改成 429 ,应该也没问题吧
e3c78a97e0f8
2024-06-05 17:01:03 +08:00
搞个 cache 呗,每次 GoogleBot 访问都给几分钟甚至几小时前的结果,这 CPU 利用率就能降下去了吧。
linyongxin
2024-06-05 19:21:53 +08:00
如果可以,生成静态化或缓存,减少数据库读取
nx6Ta67v2A43frV2
2024-06-05 19:28:21 +08:00
在前面挂 1 个 cloudflare cdn 试试。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1046927

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX