使用类似 Hugo Hexo 静态生成的网站注意了

185 天前
 2bad4u

问了 google 的 genimi 说是静态生成的网站,比如:

首页:

domain.com
domain.com/
domain.com/index.html

pages:

domain.com/about
domain.com/about/
domain.com/about/index.html

blog:

domain.com/blog/article-name
domain.com/blog/article-name/
domain.com/blog/article-name/index.html

对于 GOOGLE 来说每一个 URL 都是不同的实体,就算多一个/也是不同的,GOOGLE BOOT 会判你大量内容重复,降低你的权重。

2787 次点击
所在节点    分享发现
35 条回复
shuangbiaog
185 天前
用 sitemap 或许能解决,让爬虫只抓取特定 URL ?
2bad4u
185 天前
@shuangbiaog 八百年前 GOOGLE 就不爬 SITEMAP 了
Pipecraft
185 天前
我记得网页里设置 canonical 就可以,上面三种都设置成一个 canonical url ,就没事。
2bad4u
185 天前
@Pipecraft genimi 说 GOOGLE BOOT 有概率会忽略 canonical
Pipecraft
185 天前
@2bad4u #4 这太坑了
w568w
185 天前
有文档来源吗,你的消息来源全是不加验证地问大模型?
yangzair
185 天前
并不会,会放入"已发现,尚未编入索引"里面
2bad4u
185 天前
@w568w GEMINI 是免费用的,你问它就是了。验证的话,请问怎么验证 GOOGLE 的规则?
2bad4u
185 天前
@yangzair 如果你有自己的服务器,看过 GOOGLE BOOT 的抓取规则,你就不会这么说了,GOOGLE 真的什么都爬,不仅仅是你 SITEMAP 或者是内链上的 URL ,它自己会爬很多 URL 有点像暴力破解那种
w568w
185 天前
@2bad4u 就这么依赖大模型,唯大模型是瞻么?我问了,GEMINI 说你在胡说,引用的资料来自官方博客: https://developers.google.com/search/blog/2010/04/to-slash-or-not-to-slash

划重点:

> “但这样做完全没必要。Google 会将上述每个网址区分(平等)对待,无论该网址是文件还是目录,亦或末尾是否含有斜线。”

> “如果末尾有斜线和没有斜线的网址版本包含相同的内容,并且各自返回 200 ,您可以保持原样。很多网站包含重复内容。我们的索引编制流程通常可以为网站站长和用户处理这种情况。虽然这不是最佳行为,但它完全合法且没问题。”
xloong
185 天前
@2bad4u #2 经实测(1 月份) sitemap 依然有效
回到 op 原问题, 这和你链接到对应页面的 url 有关系 如果你统一都是用的/index.html 的 url 去链接页面 google 又怎么会去访问其他的/ 页面那?
既然想做 seo, 肯定是以实际效果为准, 不能以 AI 为准的
w568w
185 天前
以及: https://developers.google.com/search/blog/2008/09/demystifying-duplicate-content-penalty

> 重复内容始终是一个经常被谈论的话题。我们 不断地 发表 关于这方面 的 文章 ,人们也在 不断地提出问题 。特别是,我还听到有很多网站管理员担心自己受到了“重复内容处罚”。

> 在这里请允许我们把这个问题一次性跟大家讲清楚:根本不存在所谓的“重复内容处罚”。至少,也不是大多数人谈论时所认为的那样。

> 但是我听到的一些担心重复性内容的网站管理员所谈论的并不是抄袭或者域名农场(domain farms);他们讨论的是诸如在同一个域上有多个网址指向相同的内容。比如,www.example.com/skates.asp?color=black&brand=riedell
www.example.com/skates.asp?brand=riedell&color=black 。这种类型的重复性内容可能会对您网站在搜索结果中的表现有潜在的影响,但是它不会使您的网站受到惩罚。除非重复内容看起来意在欺骗用户并操纵搜索引擎结果,否则,我们不会对有重复内容的网站采取特别措施。如果您的网站存在重复内容问题,而您又未遵循上述建议,我们会自行以恰当的方式选择在搜索结果中显示的内容版本。
2bad4u
185 天前
@w568w 没用的。技术上来说 `domain.com/about` 是一个文档,`domain.com/about/` 是一个目录,技术上只遵循标准而不会遵循某一类用法。而且人家也说了 `不是最佳行为`
2bad4u
185 天前
@w568w 大哥,GEMINI 在这里 https://aistudio.google.com/prompts/new_chat 你问一下它,
domain.com/about
domain.com/about/
domain.com/about/index.html 在 SEO 方面是不是 3 个不同的网址,如何优化。
w568w
185 天前
@2bad4u 那我原话奉还好了:我都是问 GEMINI 的,GEMINI 是免费用的,你问它就是了。验证的话,请问我要怎么验证 GOOGLE 的规则是你说的那样?
2bad4u
185 天前
@xloong 你只要有它就会爬,你就算命名为 sitemapss.xml (名称错误,但是存在) 你在整个网站上都没有这个 LINK 它依然会爬取
2bad4u
185 天前
@w568w google 换了多少次规则了最近两三年的参考价值会高些,10 几年前的规则早换了很多次了
2bad4u
185 天前
@w568w 我问 GEMINI 2.0 FLASH:

怎么定义重复内容,domain.com/about domain.com/about/ domain.com/about/index.html 是同一个网页,算是重复内容吗

回答:

重复内容 (Duplicate Content) 的定义:

重复内容是指在同一个网站上或跨多个网站上,存在大量完全相同或非常相似的内容。 这里的关键是"大量相同或非常相似"。

domain.com/aboutdomain.com/about/domain.com/about/index.html 是否算作重复内容?

是的,它们 绝对 算作重复内容。

虽然从技术角度来看,它们是不同的 URL ,但以下情况成立:

用户角度: 当用户访问这三个 URL 中的任何一个时,他们都会看到完全相同的内容。

搜索引擎角度: 即使是不同的 URL ,搜索引擎也能识别出这三个 URL 提供的是完全相同的 HTML 代码和文本内容。

正因为如此,搜索引擎会将这三个 URL 视为重复内容。
DT27
185 天前
我相信谷歌,我相信他不会这么傻。
Remember
185 天前
不要把 AI 说的当真理。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1117340

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX