到目前为止，到底有没有一种防爬虫但是不会误伤谷歌爬虫的完美方法？

自己一个网站，都是自己辛辛苦苦用键盘敲出来的数据，纯原创站，自己很用心在做这个网站，但是说实话，一个新手都可以用火车头不费吹灰之力把我的网站数据全爬过去，其实如果不是谷歌的话，我想了很多种防爬虫的手段，比如：

js 生成数据，抓取 phantomjs 之类的 headless 浏览器的特征码， ban 掉它
同一个 ip 短时间内抓取数据太多， ban 掉它
没有 header 之类的访问， ban 掉它
检测客户端访问抓取 css 文件没有，没有的话就 ban 掉它
客户端 js 加密一个 token ，和服务器端公用一个 key 来解密，每次提交都要验证这个 token
学习Flickr一样，任何搜索结果只显示4000个结果，避免一次性清仓大处理被爬虫抓完了，后台把sitemap所有数据提交给谷歌，但是貌似这样会不会伤及SEO，毕竟内链之间就断开了

感觉这些合在一起基本可以过滤大部分新手了，但是，这些很有可能把可爱的谷歌爬虫给误伤了，现在服务器端验证 header 为 Googlebot 貌似也不起任何作用，都可以伪造，大家有哪些防爬虫但是不会误伤谷歌爬虫的完美方法？讨论一下，谢谢

rockivy

2017-01-18 18:05:08 +08:00

插个题外话，以前还真的爬过 canvas 画的数据。比如下面这个 URL 里面：

http://v.qq.com/datacenter/0dfpyvfa7tp0ewe.html

一些具体的数字就是用 canvas 画出来的。

办法就是先截图，然后调用 OCR 识别图片上面的数字。
当时用的 tesseract ，对数字的识别准确率还蛮高的（当然对图片有些简单的放大和二值化处理之后，准确率才上来的）。

不过，上面这个腾讯的视频指数页面，有些别的反爬处理，很难搞，最终还是放弃了。

lgpqdwjh

2017-01-18 18:24:07 +08:00

我们是实现一个漏桶来处理这样的事情的，针对流量分析一下 ip 均匀请求量自动调整漏桶大小，如果爬的比较猛就直接 ban 掉 ip ，值得一提的是这样的方法防不住有心的爬虫，总的来讲我们是想挡住恶意的高频请求用户

至于完全的防爬，我觉得是不可能懂，人家真想要你的数据，办法多的是。。

libook

2017-01-19 10:24:42 +08:00

前端分两套，正常业务页面和 SEO 页面，把能暴露出去的且希望搜索引擎爬到的防盗 SEO 页面里，正常页面做好防爬措施，使用流量技术+搜索引擎配置的方式引导搜索引擎去爬 SEO 页面。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/335342

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.