大家有没有遇到过 Baiduspider/2.0 不遵守 robots.txt 的情况?

2016-01-29 02:50:18 +08:00
 xiaoyustudio

Apache 纪录里面发现了好多纪录都是百度访问本该 Disallow 的页面,大家有没有碰到过类似的情况?都是怎么解决的...直接屏蔽掉百度爬出么?

2444 次点击
所在节点    问与答
15 条回复
580a388da131
2016-01-29 03:14:23 +08:00
修改 robots 后有 一段时间内蜘蛛还回来
Andy1999
2016-01-29 04:28:09 +08:00
谷歌也不遵守,悉听尊便吧
Khlieb
2016-01-29 04:43:55 +08:00
坐等大神出来分析
czb
2016-01-29 05:41:11 +08:00
有验证是真的 spider 吗
ryd994
2016-01-29 06:29:32 +08:00
怎么单独屏蔽百度爬虫?真心要爬你,换个 UA 就行了
要屏蔽就要屏蔽所有(至少绝大部分)爬虫
DesignerSkyline
2016-01-29 08:19:15 +08:00
只需要上全站 HTTPS+只开启 CHACHA20_POLY1305 即可让多数爬虫敬而远之
xrui
2016-01-29 08:24:34 +08:00
对,直接 403
keinx
2016-01-29 09:03:56 +08:00
蜘蛛是会来爬的,但是不一定收录。
Hello1995
2016-01-29 09:17:01 +08:00
@ryd994 大部分搜索引擎爬虫的 UA 里有 spider / bot 字样,屏蔽之,亲测有效。不过少量的爬虫没有这两个字眼的就没办法了。
xiaoyustudio
2016-01-29 10:36:34 +08:00
@czb IP 地址查了一下确实是百度的...
xujif
2016-01-29 11:19:36 +08:00
难道不知道现在很多采集程序都把自己标记为 spider 吗
libook
2016-01-29 12:15:39 +08:00
我们是用 Nginx 检测 UA ,然后直接内部跳转。如果换 UA 偷偷爬我也没办法。
阴谋论:别的厂商的爬虫用了百度的 UA ?
还有个好方法是用 Angular 路由,百度爬不到#之后的部分。。。
xiaoyustudio
2016-01-29 12:35:42 +08:00
@czb @xujif @libook, 之前想到过阴谋论... 然后 double check 了一下各种 IP 发现确实是百度的.... 再观察一下好了 如果实在太嚣张就 .htaccess UA 识别一下全部 redirect 到主页哈哈... 感谢大家!
wy315700
2016-01-29 12:38:56 +08:00
robots.txt 只是规定了不收录,但是没有规定不爬取
TheCure
2016-01-29 12:44:32 +08:00
是的百度不会按照 robot 里面的目录来爬,但是一般情况下不会收录你 disallow 的目录

比如各种网站都会把后台管理目录放到 disallow 里,但是在百度搜索是搜不到这些目录的

如果你 disallow 根目录,那是不会来爬了
估计百度一开始的实现有问题,后来规模大了问题很难修改?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/254123

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX