谷歌的爬虫是怎么爬取到那些孤立的网站的

2016 年 11 月 17 日

syahd

我建了两个网站，没有任何被任何博客添加友链，没有在任何网站上留下过 url ，但是我都在这两个服务器里的 access.log 里看到了谷歌爬虫（虽然我设置了 robots.txt 不让爬取）。难不成是靠遍历 ip 地址吗？

3925 次点击

所在节点

11 条回复

xzem

2016 年 11 月 17 日

比如说 chrome

DesignerSkyline

2016 年 11 月 17 日

Google chrome 的安全检测服务可能会导致这个现象

yankebupt

2016 年 11 月 17 日

爬的时候不遵循 robots.txt 的也有可能是伪造成谷歌爬虫的其他爬虫，比如安全机构

yushiro

2016 年 11 月 17 日

网站有域名，根据域名注册商的列表爬。

syahd

2016 年 11 月 17 日

@DesignerSkyline 什么意思？

syahd

2016 年 11 月 17 日

@yushiro 这个列表域名注册商可以随便就给别人吗？

DesignerSkyline

2016 年 11 月 17 日

@whwq2012 safebrowsing probes

yushiro

2016 年 11 月 17 日

@whwq2012 你注册域名的时候是不是要查询域名是否被注册？这都是公开的

syahd

2016 年 11 月 18 日

@yushiro 虽然是这样的，但是也不会给整个数据库吧

julyclyde

2016 年 11 月 18 日

@whwq2012 跟给数据库有啥区别？让它挨个试还影响注册商性能呢，比如直接给数据库

flynaj

2016 年 12 月 15 日

看 ip 地址，如果不是 google 的服务器就是伪造的，可能是扫描

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.