到目前为止,到底有没有一种防爬虫但是不会误伤谷歌爬虫的完美方法?

2017-01-18 11:28:05 +08:00
 alwayshere

自己一个网站,都是自己辛辛苦苦用键盘敲出来的数据,纯原创站,自己很用心在做这个网站,但是说实话,一个新手都可以用火车头不费吹灰之力把我的网站数据全爬过去,其实如果不是谷歌的话,我想了很多种防爬虫的手段,比如:

  1. js 生成数据,抓取 phantomjs 之类的 headless 浏览器的特征码, ban 掉它
  2. 同一个 ip 短时间内抓取数据太多, ban 掉它
  3. 没有 header 之类的访问, ban 掉它
  4. 检测客户端访问抓取 css 文件没有,没有的话就 ban 掉它
  5. 客户端 js 加密一个 token ,和服务器端公用一个 key 来解密,每次提交都要验证这个 token
  6. 学习Flickr一样,任何搜索结果只显示4000个结果,避免一次性清仓大处理被爬虫抓完了,后台把sitemap所有数据提交给谷歌,但是貌似这样会不会伤及SEO,毕竟内链之间就断开了

感觉这些合在一起基本可以过滤大部分新手了,但是,这些很有可能把可爱的谷歌爬虫给误伤了,现在服务器端验证 header 为 Googlebot 貌似也不起任何作用,都可以伪造,大家有哪些防爬虫但是不会误伤谷歌爬虫的完美方法?讨论一下,谢谢

7335 次点击
所在节点    程序员
46 条回复
just4test
2017-01-18 11:29:42 +08:00
不是可以通过 IP 验证吗
alwayshere
2017-01-18 11:33:43 +08:00
@just4test 谷歌有哪些 ip ?
vbs
2017-01-18 11:36:06 +08:00
搜索关键字:
google crawler 验证
alwayshere
2017-01-18 11:39:23 +08:00
@vbs 谢谢,世界上搜索引擎还有很多, bing yandex 百度 搜狗之类的 感觉验证完好渺茫
rocksolid
2017-01-18 12:40:19 +08:00
如果不嫌麻烦能不能先放部分数据,部分垃圾数据,等过个一两天再把真实数据更新上去
gouchaoer
2017-01-18 12:42:12 +08:00
天真
binux
2017-01-18 12:44:08 +08:00
没有。即使假设有,再不济,我去抓 google 不就好了。
danmary61
2017-01-18 12:45:30 +08:00
这个真没有
KeepPro
2017-01-18 12:45:55 +08:00
把所有的数据展示都放到 canvas 里面显示,或者生成图片。
annielong
2017-01-18 12:48:40 +08:00
折中方案就是显示一半,剩下的加个强验证,通过后显示,
sobigfish
2017-01-18 12:49:56 +08:00
不用每次访问都验证 IP 啊,首次见的(疑似) bot 验证,过了的 IP 就加入到你特定的白名单里
Zzzzzzzzz
2017-01-18 12:50:41 +08:00
没有, 而且各引擎为了评估网站是否针对它们吐数据作弊, 都会有其他非公开的 UA 和 IP 段的爬虫做检验, 你这样反而适得其反
mnhkahn
2017-01-18 12:51:52 +08:00
useragent 可以判断
golmic
2017-01-18 12:54:41 +08:00
楼主能不能告诉我地址我想练练我的爬虫技能...
doubleflower
2017-01-18 13:26:16 +08:00
内容里面随机插网站名字 /网址,别人相当于给你免费宣传了
smallaccount
2017-01-18 13:28:35 +08:00
搜索引擎原创识别才是最根本的吧
另外就是版权的法律保护,国外如果 copy 的话貌似可以直接主机商关站的
clino
2017-01-18 14:21:12 +08:00
TaMud
2017-01-18 14:34:57 +08:00
你都把衣服脱光了给人家看了
你说你要怎么样保护密秘??

你可以把整个网页变成一张图片

你也可以把整个网站做成一个 flash
usernametoolong
2017-01-18 15:35:06 +08:00
你不放网址我们怎么帮你提高一下?(捂脸
ningcool
2017-01-18 15:58:36 +08:00
纯原创的话,一天你写不了几篇文章。所以,哪怕你技术上屏蔽了别人,你无法阻挡别人去复制啊!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/335342

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX