V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LANCDN
V2EX  ›  Cloudflare

CF 的 ai 反爬 robots.txt 似乎部分情况下跟 Pages 机制冲突?

  •  
  •   LANCDN · 1 天前 · 292 次点击

    触发条件

    • Pages 有一个根域名(二级域名好像没这问题)的自定义域
    • 部署的 Pages 里没有 404.html,有正常的 index.html
    • 仪表板的 AI Crawl Control => Robots.txt => Cloudflare managed 开着

    现象

    • 手动访问 xxx.com/robots.txt 的时候 index.html 的文件内容会出现在 CF 的 robots.txt 模板下面,感觉像 Pages 默认回落的逻辑也跟着执行了。大概就像这样:
    # As a condition of accessing this website, you agree to abide by the following
    # content signals:
    
    ...
    
    # BEGIN Cloudflare Managed content
    
    User-agent: *
    Content-Signal: search=yes,ai-train=no
    Allow: /
    
    ...
    
    # END Cloudflare Managed Content
    
    <!DOCTYPE html>
    <html lang="zh">
    	...
    </html>
    
    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   981 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 365ms · UTC 20:00 · PVG 04:00 · LAX 12:00 · JFK 15:00
    ♥ Do have faith in what you're doing.