谷歌的爬虫是怎么爬取到那些孤立的网站的

2016 年 11 月 17 日
 syahd

我建了两个网站,没有任何被任何博客添加友链,没有在任何网站上留下过 url ,但是我都在这两个服务器里的 access.log 里看到了谷歌爬虫(虽然我设置了 robots.txt 不让爬取)。难不成是靠遍历 ip 地址吗?

3925 次点击
所在节点    Google
11 条回复
xzem
2016 年 11 月 17 日
比如说 chrome
DesignerSkyline
2016 年 11 月 17 日
Google chrome 的安全检测服务可能会导致这个现象
yankebupt
2016 年 11 月 17 日
爬的时候不遵循 robots.txt 的也有可能是伪造成谷歌爬虫的其他爬虫,比如安全机构
yushiro
2016 年 11 月 17 日
网站有域名,根据域名注册商的列表爬。
syahd
2016 年 11 月 17 日
@DesignerSkyline 什么意思?
syahd
2016 年 11 月 17 日
@yushiro 这个列表域名注册商可以随便就给别人吗?
DesignerSkyline
2016 年 11 月 17 日
@whwq2012 safebrowsing probes
yushiro
2016 年 11 月 17 日
@whwq2012 你注册域名的时候是不是要查询域名是否被注册? 这都是公开的
syahd
2016 年 11 月 18 日
@yushiro 虽然是这样的,但是也不会给整个数据库吧
julyclyde
2016 年 11 月 18 日
@whwq2012 跟给数据库有啥区别?让它挨个试还影响注册商性能呢,比如直接给数据库
flynaj
2016 年 12 月 15 日
看 ip 地址,如果不是 google 的服务器就是伪造的,可能是扫描

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/321272

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX