![]() |
1
lichao 67 天前
建议做一个 Sitemap 给它
|
3
likunyan 67 天前
从最新的爬,没毛病。不过他没有检测内容,因为你随机输出一些东西,只要不是 404 ,他就保存了。建议返回 404 。
|
![]() |
4
qqjt 67 天前
无内容页得返回 http 404 啊
|
![]() |
5
slime7 67 天前
看楼上说返回 404 ,我问一下前后端分离的页面怎么优雅返回 404 状态?
|
6
Masterlxj 67 天前
你给它个 robots 不就好了么
|
![]() |
7
westoy 67 天前
蜘蛛不会穷举的
这是被伪装成 google 爬虫的给定向采集了 |
8
Charrlles 67 天前 via iPhone
10000 页显示成软 404 ,加上 noindex 就可以了吧,或者直接重定向到 404 页面
|
![]() |
10
locoz 67 天前 ![]() @westoy #7 注意看人家说的啊,“然后 search console 那给我告警说收录了上千页 bad page”,都在 Google 自己的地方提示了怎么可能还是假 Google...
|
11
lFOqSK OP ![]() @westoy 但是谷歌的 search console 上是显示是它自己爬的。它现在已经穷举了 5000 多页了。爬取结果都是 Duplicate without user-selected canonical 。然后最神奇最离谱的地方在于,理论上来说它应该告诉我它是从哪里知道我这个网址所以才来爬的。但是这些页面的 Referring page 全部都是页面自己。比如 ?page=10000 的 Referring page 就是 ?page=10000 ,一模一样一字不差。
我从来没见过这么离谱的事情……如果不是因为这个 Referring page 全部都是页面自己,我还真不会怀疑到谷歌的爬虫逻辑上…… |
13
terranboy 67 天前
SSR 了没 不然爬啥
|
14
lFOqSK OP @qqjt
@Charrlles 谷歌是判定我的这些页面为软 404 ( Duplicate without user-selected canonical )的。但是我纠结的地方在于,它浪费太多时间在穷举我的这些页码上面了。而我每页的内容,就是那些文章链接什么的,它只爬了很小一部分。而且它这个穷举目前根本没有停下来的意思。 目前,正经内容它只爬了 800 页左右,而这些穷举的 404 页面它爬了 5000 页了。而且我不知道它这样是在干嘛,如果爬完 10000 以内的页面,它是不是还回去爬大于 10000 的页面?因为谷歌对每个网站的爬取是有每日频次限制的,它这样浪费时间穷举,以前一个月就可以索引完整个网站,现在都过去半个月了,正经的内容才 800 页。整个网站爬完估计要花一年时间…… |
15
lFOqSK OP @terranboy 我看它的 Crawled page 记录里显示的 html 是有把我特地给它准备的文章页和翻页隐藏超链接都渲染出来的,而且它确实有跟着这些超链接去爬我的文章页。所以我目前还没做 SSR 。之后研究下考虑弄一下 SSR 。
但是主要是它这个莫名其妙去穷举我没给过的页码的行为,太浪费时间了…… |
![]() |
17
yazoox 67 天前
楼主,怎么看 goolg 爬你的网站这些明细详细信息的?
|
![]() |
20
blankmiss 67 天前
爬虫有自己的想法 哈哈哈
|