百度蜘蛛抓取我们网站, 网址却包含他人的域名, 是为什么

2020-11-26 13:15:34 +08:00
 RickyC

2020-11-26 01:04:44 GET / s=www.yidianxueche.cn 80 - 27.159.78.41 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 130

2020-11-26 01:04:44 GET / s=www.sw-jewelry.cn 80 - 27.159.78.40 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 142

2020-11-26 01:04:46 GET / s=www.lyjzfw.cn 80 - 27.159.78.50 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 138

2020-11-26 01:04:47 GET / s=www.longdugame.cn 80 - 27.159.78.52 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 141

以上是一些抓取记录, 百度都在我们网站的根目录加上了 s=别人的域名, 如 www.xxx.com/s=www.longdugame.cn 而且还很多 这是什么原理? 在我们网站的代码里并找不到这些域名

2094 次点击
所在节点    问与答
14 条回复
RickyC
2020-11-26 13:16:38 +08:00
# V2EX 是否支持 markdown?

## 看看
itskingname
2020-11-26 13:45:46 +08:00
这是一种常规的刷排名的手段。你以 『你的域名 /s=别人的域名』在百度上搜索一下看看。他们通过这种方式把自己网站的排名往上刷。
oott123
2020-11-26 14:18:12 +08:00
27.159.78.50 中国 福建 厦门 chinatelecom.com.cn

看上去不像是合法的百度蜘蛛的 IP
RickyC
2020-11-26 14:24:25 +08:00
@itskingname 那有什么解决的方法吗? 百度是怎么得到这些网址的?
RickyC
2020-11-26 14:25:05 +08:00
@oott123 UA 都写了是 baiduspider
oott123
2020-11-26 14:27:10 +08:00
@RickyC UA 写了 baiduspider 不代表它就是真的百度蜘蛛,就像我声称我有一百万不代表我真的有一百万一样。
Rxianbei
2020-11-26 14:32:46 +08:00
@RickyC 楼主对 HTTP 协议没有基本的了解啊,ua 头是自定义的,你想改成什么都可以,你甚至可以改成 baidudasabi
Xusually
2020-11-26 14:34:59 +08:00
1 、国际上的一些搜索引擎有自己的 spider ip 段公布的,百度暂时没有官方的查询公布,但是可以通过 ip 反查 ptr 来看是不是百度的蜘蛛
2 、UA 可以随便伪造
3 、你贴的这种行为是标准的恶意辣鸡 seo,还有往你的搜索接口灌各种辣鸡 url 和关键词的恶意搜索等等
westoy
2020-11-26 14:58:36 +08:00
这是面向站长打广告的

主流蜘蛛的 IP 都可以反查的

蜘蛛可能会用非标 IP 去检测站长有没有面向引擎针对性吐数据 SEO, 但这时候也不会挂爬虫自己的标准 UA
007yxc
2020-11-26 17:19:32 +08:00
我 tm 在工位点了你的链接,我靠- - 还好我手速快关掉了。。。。
RickyC
2020-11-26 21:40:46 +08:00
@Xusually 我发的如果不是真正 baiduspider, 那别人刷这些网址的意义是什么?
Xusually
2020-11-26 21:47:33 +08:00
@RickyC 恶意的 SEO,举个其中一种简单的例子,假如你的系统有一个搜索功能,那么对方把自己的垃圾信息,比如自己的辣鸡站点的域名、关键字什么的他想 seo 的东西,提交给你的搜索系统。那么有机会你的搜索系统会统计用户搜索的关键字,把他大量提交的辣鸡关键字当作用户的搜索意图,提升了权重,或者进入类似于热搜榜之类的东西。
id7368
2020-11-26 23:35:55 +08:00
nslookup 百度蜘蛛 ip 如果返回的地址带百度域名就是真蜘蛛 反之也是假冒的 可以将 ip 封锁
opengps
2020-11-26 23:50:38 +08:00
可能不是真爬虫,而是用来想你打广告的机器人干的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/729449

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX