有没有人遇到过百度收录“不存在”的链接的问题?

2015-03-27 18:00:59 +08:00
 my101du
鄙站使用phpcms系统搭建。

下面有若干二级域名,例如
a.domain.com/
b.domain.com/

每个二级域名下都有若干栏目和文章,进行了伪静态处理(nginx),例如
a.domain.com/category1/1.shtml
b.domain.com/category2/2.shtml

后台程序做过二次开发,实际上是会忽略url里“栏目”这个属性的(就是上面例子里的 category1,category2);只会处理后面的数字id去查找数据库里对应的记录,然后解析并显示出来。也就是说

a.domain.com/category1/1.shtml

b.domain.com/category2/1.shml
会读取同样的“内容”(正文区域),但是显示的“模板”会不一样(除了正文以外的html)

最近发现一个奇怪的问题:百度会收录“不存在”的链接:
例如本来我数据库里有这样一条记录
b.domain.com/category2/2.shml
意思是id=2的文章,属于站点b下的category2栏目。

但是百度会收录成
a.domain.com/category1/2.shml
也就是说,它记录了错误的站点和栏目

我检查过了,前台页面里根本就没有这样的“错误”链接。

那么百度这种混乱的收录,到底是怎么来的呢? 蜘蛛会去尝试这种“没有身份证”的链接吗?(虽然实际上可以打开,但根本没有任何地方可以找到入口)
1809 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/179773

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX