GG5332
V2EX  ›  Claude

有大佬用上了 Claude Mythos Preview 吗?感觉挖洞是下一个被颠覆的工作了

  •  
  •   GG5332 · 3h 0m ago · 1090 views
    Anthopic 四月发了博文说搞了一个 Claude Mythos Preview ,挖了 500+个漏洞,前几天又更新了进展,扫描了 1000 多个开源项目发现了估计为 23019 个漏洞,某家独立的安全研究公司对其中 1752 个高危或严重级别漏洞进行了仔细评估,其中 90.6%( 1587 个)被证实为有效漏洞,62.4%( 1094 个)被确认为高危或严重级别。然后五月份 OpenAI 也推出了同类产品"daybreak",效果如何没有说,但是给我的感觉挖洞这个工作是不是 Anthropic 继搞定编程这个工作后,准备要颠覆掉的下一个工作?给人感觉 Anthopic 不像其他 AI 公司开口闭口我要 AGI ,它就默默的干,一个一个领域的突破。Claude Mythos Preview 由于太牛逼 Anthropic 说在他们开发出更加牛逼的防护系统之前不对外发布,只给一些信得过的 partner 使用,有没有大佬实际用过啊?是否真的那么牛逼。

    4 月博文: https://red.anthropic.com/2026/mythos-preview/
    5 月博文: https://www.anthropic.com/research/glasswing-initial-update
    openai 跟进: https://x.com/OpenAI/status/2053939702110269822
    12 replies    2026-05-30 12:02:16 +08:00
    w568w
        1
    w568w  
       2h 44m ago   ❤️ 1
    https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/

    省流:Curl 作者试用了 Claude Mythos ,在 Curl 项目上进行扫描。在公开投票中,大部分用户认为能发现 10 个或更多 CVEs 。

    但 Claude Mythos 最终信心满满地报告「发现了 5 个确信的漏洞」,并且经过开发者复查后,其中 3 个都是误报,剩下 2 个中,1 个被认为是「 bug 而非安全漏洞」,另一个被认定为「低危漏洞」「不会造成严重后果」,不过出于对报告的尊重,依然分配了 CVE 编号并进行了安全修复。

    Claude Mythos 确实发现了约 20 个 bugs ,「几乎没有误报」。不过 curl 作者表示,「就发现的问题数量而言,我们之前使用的所有 AI 工具都带来了更多的 bug 报告」。

    作者的结论是:「我个人的结论只能是,目前围绕这个模型的种种炒作主要还是营销噱头。我没有看到任何证据表明,与 Mythos 之前的其他工具相比,这个模型在发现问题方面有任何显著的提升或改进。或许这个模型略胜一筹,但即便如此,它的优势也并不足以对代码分析产生实质性的影响。」
    zcsexp
        2
    zcsexp  
       2h 37m ago
    我用了一段时间,不过对于一般的小项目,貌似没啥明显的感觉。。。
    licolicoli
        3
    licolicoli  
       2h 36m ago
    这里应该找不到能用上这种模型的人...

    不过我觉得挖洞确实比编程靠谱,毕竟做项目我们还能谈谈“架构”、“品位”、“设计”这种主观的东西,还有历史遗留项目需要理解来龙去脉的人来维护。挖洞可不用管这么多,挖到一个洞就是胜利;何况人的精力是有限的,不可能一会研究这个一会研究那个,LLM 通电就行,7x24 拿什么打?

    我觉得以后新的代码我们都会默认先给主流 LLM review 一遍,从开始就减少犯错的机会。大部分开源项目会在接下来几个月迎接一波大的,比方说你可以看检测开源项目安全状况的 oss-security 邮件列表: https://www.openwall.com/lists/oss-security/ 最近新披露的漏洞呈指数上升,但总会趋于平缓,直到历史遗留的代码被扫干净,摘完这波果子就无了。
    licolicoli
        4
    licolicoli  
       2h 35m ago
    被打脸了,刚发完楼上就有用过的(
    licolicoli
        5
    licolicoli  
       2h 29m ago
    另外我觉得其实这是好事,这些开源项目的 0Day 肯定有很多已经被独立发现过并且作为武器使用。现在 LLM 直接捅了篓子,堵 > 瞒。
    GG5332
        6
    GG5332  
    OP
       2h 14m ago
    @licolicoli 哈哈,华人跟 V 站还是很牛的~
    GG5332
        7
    GG5332  
    OP
       2h 8m ago
    @w568w 感觉这个也是一面之词,我找到了 cloudflare 的试用感受博文,文中描述的这点给人感觉还是很强的:"漏洞利用链构建—— 真正的攻击很少只利用一个漏洞。它通常会将几个小型攻击原语串联起来,形成一个有效的漏洞利用程序。例如,它可能会将一个释放后使用漏洞转化为任意的读写原语,劫持控制流,并使用面向返回的编程( ROP )链来完全控制系统。Mythos Preview 可以分析多个这样的原始小问题,并推断如何将它们组合成一个有效的漏洞利用证明。它所展示的推理过程看起来像是资深研究人员的工作成果,而不是自动扫描器的输出结果。"
    博文连接: https://blog.cloudflare.com/cyber-frontier-models/
    GG5332
        8
    GG5332  
    OP
       2h 6m ago
    @zcsexp 直接扫描代码库吗?还是接入到生产或测试环境里面测试?
    w568w
        9
    w568w  
       1h 56m ago
    @GG5332 是的,目前不同项目报告的使用体验差别很大,具体怎么样还是得看公开模型上的效果。

    不过我觉得模型本身的噱头成分居多,Cloudflare 也提到这种进步「可能更多来自于 Harness 而不是 Model 自身」。与其说 Anthropic 训练了一个颠覆性的模型,不如说是一个较好的模型 + 一套专为网络安全定制的复杂长时间 Harness 。
    gpt5
        10
    gpt5  
       1h 34m ago
    越捂着,用户期待越高,即使真有点东西,也被期待淹没了。
    肯定到时候推出一个所谓“阉割版”,然后接着说,其实完整版可 nb 了。
    lesismal
        11
    lesismal  
       1h 15m ago   ❤️ 1
    @w568w #1

    给人觉得,用 curl 评判 mythos 是不恰当的。

    curl 属于相对内聚、高手开发和维护的多年精华,

    现实世界中绝大多数是各种语言的 web 服务,还有各种企业级,乱七八糟的系统,很多语言和社区本身就安全性很差,叠加很多模块、功能、形成一个比较大的系统,容易出安全的点要比 curl 多的多。而这些项目的研发团队,绝大多数人员水平没有 curl 的开发者那么高,研发流程规范也不如 curl 。

    要关注的是现实世界中的各个 level 的工程安全问题,而不是只看少量高精尖项目。

    所以我是不赞同 curl 作者的观点的。
    teaguexiao
        12
    teaguexiao  
       1h 0m ago
    Harness 的设计比模型本身重要,能把利用链串起来才是真正有价值的,Cloudflare 那篇博客说得很准。不过云环境下的配置错误和权限滥用才是攻击面更大的领域,这块 AI 渗透测试还没看到成熟方案。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2812 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 05:02 · PVG 13:02 · LAX 22:02 · JFK 01:02
    ♥ Do have faith in what you're doing.