V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
2bad4u
V2EX  ›  分享发现

使用类似 Hugo Hexo 静态生成的网站注意了

  •  
  •   2bad4u · 2 天前 · 1926 次点击

    问了 google 的 genimi 说是静态生成的网站,比如:

    首页:

    domain.com
    domain.com/
    domain.com/index.html
    

    pages:

    domain.com/about
    domain.com/about/
    domain.com/about/index.html
    

    blog:

    domain.com/blog/article-name
    domain.com/blog/article-name/
    domain.com/blog/article-name/index.html
    

    对于 GOOGLE 来说每一个 URL 都是不同的实体,就算多一个/也是不同的,GOOGLE BOOT 会判你大量内容重复,降低你的权重。

    第 1 条附言  ·  2 天前
    纠正错别字:GENIMI = GEMINI
    35 条回复    2025-03-12 02:39:09 +08:00
    shuangbiaog
        1
    shuangbiaog  
       2 天前
    用 sitemap 或许能解决,让爬虫只抓取特定 URL ?
    2bad4u
        2
    2bad4u  
    OP
       2 天前
    @shuangbiaog 八百年前 GOOGLE 就不爬 SITEMAP 了
    Pipecraft
        3
    Pipecraft  
       2 天前
    我记得网页里设置 canonical 就可以,上面三种都设置成一个 canonical url ,就没事。
    2bad4u
        4
    2bad4u  
    OP
       2 天前
    @Pipecraft genimi 说 GOOGLE BOOT 有概率会忽略 canonical
    Pipecraft
        5
    Pipecraft  
       2 天前
    @2bad4u #4 这太坑了
    w568w
        6
    w568w  
       2 天前   ❤️ 5
    有文档来源吗,你的消息来源全是不加验证地问大模型?
    yangzair
        7
    yangzair  
       2 天前
    并不会,会放入"已发现,尚未编入索引"里面
    2bad4u
        8
    2bad4u  
    OP
       2 天前
    @w568w GEMINI 是免费用的,你问它就是了。验证的话,请问怎么验证 GOOGLE 的规则?
    2bad4u
        9
    2bad4u  
    OP
       2 天前
    @yangzair 如果你有自己的服务器,看过 GOOGLE BOOT 的抓取规则,你就不会这么说了,GOOGLE 真的什么都爬,不仅仅是你 SITEMAP 或者是内链上的 URL ,它自己会爬很多 URL 有点像暴力破解那种
    w568w
        10
    w568w  
       2 天前
    @2bad4u 就这么依赖大模型,唯大模型是瞻么?我问了,GEMINI 说你在胡说,引用的资料来自官方博客: https://developers.google.com/search/blog/2010/04/to-slash-or-not-to-slash

    划重点:

    > “但这样做完全没必要。Google 会将上述每个网址区分(平等)对待,无论该网址是文件还是目录,亦或末尾是否含有斜线。”

    > “如果末尾有斜线和没有斜线的网址版本包含相同的内容,并且各自返回 200 ,您可以保持原样。很多网站包含重复内容。我们的索引编制流程通常可以为网站站长和用户处理这种情况。虽然这不是最佳行为,但它完全合法且没问题。”
    xloong
        11
    xloong  
       2 天前
    @2bad4u #2 经实测(1 月份) sitemap 依然有效
    回到 op 原问题, 这和你链接到对应页面的 url 有关系 如果你统一都是用的/index.html 的 url 去链接页面 google 又怎么会去访问其他的/ 页面那?
    既然想做 seo, 肯定是以实际效果为准, 不能以 AI 为准的
    w568w
        12
    w568w  
       2 天前   ❤️ 1
    以及: https://developers.google.com/search/blog/2008/09/demystifying-duplicate-content-penalty

    > 重复内容始终是一个经常被谈论的话题。我们 不断地 发表 关于这方面 的 文章 ,人们也在 不断地提出问题 。特别是,我还听到有很多网站管理员担心自己受到了“重复内容处罚”。

    > 在这里请允许我们把这个问题一次性跟大家讲清楚:根本不存在所谓的“重复内容处罚”。至少,也不是大多数人谈论时所认为的那样。

    > 但是我听到的一些担心重复性内容的网站管理员所谈论的并不是抄袭或者域名农场(domain farms);他们讨论的是诸如在同一个域上有多个网址指向相同的内容。比如,www.example.com/skates.asp?color=black&brand=riedell
    www.example.com/skates.asp?brand=riedell&color=black 。这种类型的重复性内容可能会对您网站在搜索结果中的表现有潜在的影响,但是它不会使您的网站受到惩罚。除非重复内容看起来意在欺骗用户并操纵搜索引擎结果,否则,我们不会对有重复内容的网站采取特别措施。如果您的网站存在重复内容问题,而您又未遵循上述建议,我们会自行以恰当的方式选择在搜索结果中显示的内容版本。
    2bad4u
        13
    2bad4u  
    OP
       2 天前
    @w568w 没用的。技术上来说 `domain.com/about` 是一个文档,`domain.com/about/` 是一个目录,技术上只遵循标准而不会遵循某一类用法。而且人家也说了 `不是最佳行为`
    2bad4u
        14
    2bad4u  
    OP
       2 天前
    @w568w 大哥,GEMINI 在这里 https://aistudio.google.com/prompts/new_chat 你问一下它,
    domain.com/about
    domain.com/about/
    domain.com/about/index.html 在 SEO 方面是不是 3 个不同的网址,如何优化。
    w568w
        15
    w568w  
       2 天前
    @2bad4u 那我原话奉还好了:我都是问 GEMINI 的,GEMINI 是免费用的,你问它就是了。验证的话,请问我要怎么验证 GOOGLE 的规则是你说的那样?
    2bad4u
        16
    2bad4u  
    OP
       2 天前
    @xloong 你只要有它就会爬,你就算命名为 sitemapss.xml (名称错误,但是存在) 你在整个网站上都没有这个 LINK 它依然会爬取
    2bad4u
        17
    2bad4u  
    OP
       2 天前
    @w568w google 换了多少次规则了最近两三年的参考价值会高些,10 几年前的规则早换了很多次了
    2bad4u
        18
    2bad4u  
    OP
       2 天前
    @w568w 我问 GEMINI 2.0 FLASH:

    怎么定义重复内容,domain.com/about domain.com/about/ domain.com/about/index.html 是同一个网页,算是重复内容吗

    回答:

    重复内容 (Duplicate Content) 的定义:

    重复内容是指在同一个网站上或跨多个网站上,存在大量完全相同或非常相似的内容。 这里的关键是"大量相同或非常相似"。

    domain.com/aboutdomain.com/about/domain.com/about/index.html 是否算作重复内容?

    是的,它们 绝对 算作重复内容。

    虽然从技术角度来看,它们是不同的 URL ,但以下情况成立:

    用户角度: 当用户访问这三个 URL 中的任何一个时,他们都会看到完全相同的内容。

    搜索引擎角度: 即使是不同的 URL ,搜索引擎也能识别出这三个 URL 提供的是完全相同的 HTML 代码和文本内容。

    正因为如此,搜索引擎会将这三个 URL 视为重复内容。
    DT27
        19
    DT27  
       2 天前
    我相信谷歌,我相信他不会这么傻。
    Remember
        20
    Remember  
       2 天前
    不要把 AI 说的当真理。
    xloong
        21
    xloong  
       1 天前
    @2bad4u #16 我说的不是 sitemap 文件被爬 而是指 sitemap 文件内容(整站链接)被整个收录索引 我是说这个有效
    luckyrayyy
        22
    luckyrayyy  
       1 天前
    大模型的回答显然不能作为论据
    Love4Taylor
        23
    Love4Taylor  
       1 天前   ❤️ 2
    还真有人把 AI 的回答当圣经啊,长见识了(
    hanqian
        24
    hanqian  
       1 天前
    楼主因为 gemini 是 google 出的就以为它在 google 相关问题上有权威,这个确实是一般人很容易产生的认知。

    很多人真的是把 AI 当百科全书用,特别是 deepseek 出圈之后下沉市场很多普通用户上来就是“根据 DS”就如何如何
    ab
        25
    ab  
       1 天前
    正确的理解的,当用户可以高效且有效的获取信息时,搜索引擎也会认为这是一个好网站,即高权重站点。而所有以排名为目的的所谓优化都是无意义的,最多只有短期效果。
    CXPLAY
        26
    CXPLAY  
       1 天前
    这不是静态生成器的的问题, 这应该是你托管这些生成产物的 Web 服务器的问题.

    Pretty URLs. You can rewrite link URLs to pretty URLs. For example, with Pretty URLs enabled in Site configuration, Netlify rewrites /about to /about/ or /about.html to /about/.
    —— https://docs.netlify.com/site-deploys/post-processing/#:~:text=snippet%20injection.-,Pretty%20URLs,-.%20You%20can (Post processing | Netlify Docs)
    Trim21
        27
    Trim21  
       1 天前
    不信文档信 AI 是什么神秘操作
    musi
        28
    musi  
       1 天前
    你的意思是谷歌会把内部私有的知识、文档、代码拿去训练 gemini 模型,然后你根据一些提示词注入能 dump 出谷歌对于 SEO 处理的逻辑和流程是吗?
    PerFectTime
        29
    PerFectTime  
       1 天前
    AI 说什么你就信什么?更别提幻觉最严重的 gemini 了

    标记一下 AI 信徒
    SunsetShimmer
        30
    SunsetShimmer  
       1 天前 via Android
    有一个特定术语用于描述生成符合语法和用词合理的文本输出的神经网络系统:“大型语言模型”( LLM )。这些系统完全无法理解其文本输出的含义,因此它们总是胡说八道生成器,而非人工智能。

    https://www.gnu.org/philosophy/words-to-avoid.html#ArtificialIntelligence
    w568w
        31
    w568w  
       1 天前
    @2bad4u 朋友,你把我弄笑了,我不知道说什么好了。

    标记一下,以后元宇宙保健品卖给你。
    Jacobson
        32
    Jacobson  
       1 天前
    就算是真的,这是也它的问题,不是我的问题。
    ragnaroks
        33
    ragnaroks  
       20 小时 18 分钟前
    steam store 页面 "/app/<APPID>/" 后面接任何字符串都是相同页面
    sentix
        34
    sentix  
       19 小时 26 分钟前 via iPhone
    好崩溃,怎么会有人把 ai 当真理
    sentix
        35
    sentix  
       19 小时 25 分钟前 via iPhone
    @2bad4u 这算 ai 回复吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3121 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 14:04 · PVG 22:04 · LAX 07:04 · JFK 10:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.