有大佬用上了 Claude Mythos Preview 吗？感觉挖洞是下一个被颠覆的工作了

This topic created in 46 days ago, the information mentioned may be changed or developed.

Anthopic 四月发了博文说搞了一个 Claude Mythos Preview ，挖了 500+个漏洞，前几天又更新了进展，扫描了 1000 多个开源项目发现了估计为 23019 个漏洞，某家独立的安全研究公司对其中 1752 个高危或严重级别漏洞进行了仔细评估，其中 90.6%（ 1587 个）被证实为有效漏洞，62.4%（ 1094 个）被确认为高危或严重级别。然后五月份 OpenAI 也推出了同类产品"daybreak",效果如何没有说，但是给我的感觉挖洞这个工作是不是 Anthropic 继搞定编程这个工作后，准备要颠覆掉的下一个工作？给人感觉 Anthopic 不像其他 AI 公司开口闭口我要 AGI ，它就默默的干，一个一个领域的突破。Claude Mythos Preview 由于太牛逼 Anthropic 说在他们开发出更加牛逼的防护系统之前不对外发布，只给一些信得过的 partner 使用，有没有大佬实际用过啊？是否真的那么牛逼。

4 月博文： https://red.anthropic.com/2026/mythos-preview/
5 月博文： https://www.anthropic.com/research/glasswing-initial-update
openai 跟进： https://x.com/OpenAI/status/2053939702110269822

Supplement 1 · Jun 10

发布了 Mythos 5 了 https://www.anthropic.com/news/claude-fable-5-mythos-5

Anthropic

漏洞

颠覆

36 replies • 2026-06-10 09:47:20 +08:00

w568w

May 30

https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/

省流：Curl 作者试用了 Claude Mythos ，在 Curl 项目上进行扫描。在公开投票中，大部分用户认为能发现 10 个或更多 CVEs 。

但 Claude Mythos 最终信心满满地报告「发现了 5 个确信的漏洞」，并且经过开发者复查后，其中 3 个都是误报，剩下 2 个中，1 个被认为是「 bug 而非安全漏洞」，另一个被认定为「低危漏洞」「不会造成严重后果」，不过出于对报告的尊重，依然分配了 CVE 编号并进行了安全修复。

Claude Mythos 确实发现了约 20 个 bugs ，「几乎没有误报」。不过 curl 作者表示，「就发现的问题数量而言，我们之前使用的所有 AI 工具都带来了更多的 bug 报告」。

作者的结论是：「我个人的结论只能是，目前围绕这个模型的种种炒作主要还是营销噱头。我没有看到任何证据表明，与 Mythos 之前的其他工具相比，这个模型在发现问题方面有任何显著的提升或改进。或许这个模型略胜一筹，但即便如此，它的优势也并不足以对代码分析产生实质性的影响。」

zcsexp

May 30

我用了一段时间，不过对于一般的小项目，貌似没啥明显的感觉。。。

licolicoli

May 30

这里应该找不到能用上这种模型的人...

不过我觉得挖洞确实比编程靠谱，毕竟做项目我们还能谈谈“架构”、“品位”、“设计”这种主观的东西，还有历史遗留项目需要理解来龙去脉的人来维护。挖洞可不用管这么多，挖到一个洞就是胜利；何况人的精力是有限的，不可能一会研究这个一会研究那个，LLM 通电就行，7x24 拿什么打？

我觉得以后新的代码我们都会默认先给主流 LLM review 一遍，从开始就减少犯错的机会。大部分开源项目会在接下来几个月迎接一波大的，比方说你可以看检测开源项目安全状况的 oss-security 邮件列表： https://www.openwall.com/lists/oss-security/ 最近新披露的漏洞呈指数上升，但总会趋于平缓，直到历史遗留的代码被扫干净，摘完这波果子就无了。

licolicoli

May 30

被打脸了，刚发完楼上就有用过的（

licolicoli

May 30

另外我觉得其实这是好事，这些开源项目的 0Day 肯定有很多已经被独立发现过并且作为武器使用。现在 LLM 直接捅了篓子，堵 > 瞒。

GG5332

May 30

@licolicoli 哈哈，华人跟 V 站还是很牛的~

GG5332

May 30

@w568w 感觉这个也是一面之词，我找到了 cloudflare 的试用感受博文，文中描述的这点给人感觉还是很强的："漏洞利用链构建—— 真正的攻击很少只利用一个漏洞。它通常会将几个小型攻击原语串联起来，形成一个有效的漏洞利用程序。例如，它可能会将一个释放后使用漏洞转化为任意的读写原语，劫持控制流，并使用面向返回的编程（ ROP ）链来完全控制系统。Mythos Preview 可以分析多个这样的原始小问题，并推断如何将它们组合成一个有效的漏洞利用证明。它所展示的推理过程看起来像是资深研究人员的工作成果，而不是自动扫描器的输出结果。"
博文连接： https://blog.cloudflare.com/cyber-frontier-models/

GG5332

May 30

@zcsexp 直接扫描代码库吗？还是接入到生产或测试环境里面测试？

w568w

May 30

@GG5332 是的，目前不同项目报告的使用体验差别很大，具体怎么样还是得看公开模型上的效果。

不过我觉得模型本身的噱头成分居多，Cloudflare 也提到这种进步「可能更多来自于 Harness 而不是 Model 自身」。与其说 Anthropic 训练了一个颠覆性的模型，不如说是一个较好的模型 + 一套专为网络安全定制的复杂长时间 Harness 。

gpt5

May 30

越捂着，用户期待越高，即使真有点东西，也被期待淹没了。
肯定到时候推出一个所谓“阉割版”，然后接着说，其实完整版可 nb 了。

lesismal

May 30

@w568w #1

给人觉得，用 curl 评判 mythos 是不恰当的。

curl 属于相对内聚、高手开发和维护的多年精华，

现实世界中绝大多数是各种语言的 web 服务，还有各种企业级，乱七八糟的系统，很多语言和社区本身就安全性很差，叠加很多模块、功能、形成一个比较大的系统，容易出安全的点要比 curl 多的多。而这些项目的研发团队，绝大多数人员水平没有 curl 的开发者那么高，研发流程规范也不如 curl 。

要关注的是现实世界中的各个 level 的工程安全问题，而不是只看少量高精尖项目。

所以我是不赞同 curl 作者的观点的。

teaguexiao

May 30

Harness 的设计比模型本身重要，能把利用链串起来才是真正有价值的，Cloudflare 那篇博客说得很准。不过云环境下的配置错误和权限滥用才是攻击面更大的领域，这块 AI 渗透测试还没看到成熟方案。

shuiandy

May 30

@lesismal 事实上，对于你说的场景，opus 就够了，前段日子我还用 opus 给公司新项目做灰盒测试，上来就找到好几个严重漏洞

lesismal

May 30

@shuiandy 我还没用过 AI 来做攻防，但是都在越来越强了，模型知识库太强大，挨个尝试、分析，算力和流程调度合理的情况下，AI 体力也比人强的多。

我觉得很多人，包括一些 IT 科技领域的老爷子最近一两年出来说 AI 不行，是属于傲慢无知、静止的眼光看问题了，我是相信机器和 AI 未来进阶高级智慧超越人类，因为人类太渺小了，肉体的瓶颈无法突破，人类积累的知识点越来越多，新人学习速度慢、以后皓首穷经甚至都吃不完基础知识，还何谈星际文明。而且这宇宙真的像是被设计好的，我们是造物主的养成游戏中的角色，造物主也要让这游戏数值向上才有趣，AI 、无固定形式的智慧生命是必然的，一切都是时间问题。

lesismal

May 30

@w568w @lesismal #14 “给人觉得。。。” -> “个人觉得。。。”

w568w

May 30

@lesismal 讨论的不是一件事啊。

我转发 curl 作者的观点是「 Claude Mythos Preview 这个模型在试用中并没有吹得那么强，商业噱头大于实际」；
你回复我的是「 Mythos 找不出漏洞只能说明 curl 安全性很高，不能说明 Mythos 本身能力不行」；
楼上的观点是「 Claude Opus 也可以用于安全测试，所以不一定非要用 Mythos 」；
你的观点大概是「 AI 未来一定会发展到很强」。

呃，所以呢？我同意 AI 未来会发展，甚至也认可超过人类的可能性，但这和 Claude Mythos Preview 有什么关系？不管是 curl 作者、楼上还是我，都没人说「 AI 作为一个发展方向不行」啊。只是在回答楼主的问题，即「 Claude Mythos Preview 真的这么牛逼吗」。

shyrock2026

May 30

不过 curl 作者表示，「就发现的问题数量而言，我们之前使用的所有 AI 工具都带来了更多的 bug 报告」。

-----------------

挺难理解的。意思是 curl 的作者之前用其他 AI 工具扫出来更多 bug ？
那么是留着不修又让 mythos 扫一次？还是说都修好了再让 mythos 扫？

如果是前者，首先这个留着 bug 不修的行为就挺迷惑的。
如果是后者，之前多次扫描多次修复，再让 mythos 扫，只能扫出来更少的问题不是客观规律吗？

lesismal

May 30

@w568w #16 我反驳的就是 curl 作者的观点。

> Claude Mythos Preview 这个模型在试用中并没有吹得那么强，商业噱头大于实际」

因为 curl 作者是用 curl 这个项目本身来做实验、然后拿实验结果来评价 Mythos ，我在 #11 楼说的就是他用 curl 做实验工具本身不合理，所以他的结论来源的基础就不合理，也就是他的观点不合理。

> 但这和 Claude Mythos Preview 有什么关系？不管是 curl 作者、楼上还是我，都没人说「 AI 作为一个发展方向不行」啊

我没有认为 “你说「 AI 作为一个发展方向不行」”。

#14 我只是回复 #13 时顺便延展下自己对 AI 的看法，这个看法大概二十年前我就这样认为了。这一点与 Claude Mythos 无关，论坛闲聊不是辩论赛，无需限定范围，兄弟不用误解。

zmcity

May 30

MS 现在开始用这个挖代码漏洞，我已经被这玩意整疯了，一周得修 200 多个漏洞。。。。当然大部分是根本没有任何影响的内部工具。。。

w568w

May 30

@lesismal
> 他的结论来源的基础就不合理，也就是他的观点不合理

我觉得是你随意扩大了对其观点的解释。这是原话：Any project that has not scanned their source code with AI powered tooling will likely find huge number of flaws, bugs and possible vulnerabilities with this new generation of tools. Mythos will, and so will many of the others.

curl 作者想要说明的是，Mythos 本身并没有比其他模型强多少。他所说的噱头是指 "The whole world seemed to lose its marbles. Is this the end of the world as we know it?"，或者说「 Mythos 颠覆性地超越了此前所有模型，并且将会引起业界巨大震动」。

他批判的是「 Mythos 强得离谱」这个观点，并没有说「 Mythos 没有提升」「 Mythos 很弱」或「 Mythos 是很一般的模型」。说人话就是要给这个 hype 降温，而不是彻底反对整个观点。这就是我为什么引用来回答楼主的问题：「 Mythos 真的那么"牛逼"么？」

至于说「 curl 作为一个高度精良的项目，拿来做实验不合理」，这就更没道理了。一方面是 Anthropic 的封闭模式导致目前客观上没有办法在「各种语言的 web 服务，还有各种企业级，乱七八糟的系统」上进行有效的评测；另一方面是 Mythos 如果想要证明自己是「颠覆性的强」，「能够在 curl 上找出高危漏洞」自然是一个充分条件，好马配好鞍。如果只是用一般的项目扫描，那现有的模型也可以做到类似的效果，只不过受限于应用 AI 的能力、技术水平、人力成本或意识形态等乱七八糟的原因，没人去做罢了。而 curl 作者用自己的项目验证了「 Mythos 并不能在顶尖开源项目中找出高威胁安全漏洞」，说明其能力并没有炒作中那么颠覆，逻辑是闭环的。

w568w

May 30

@shyrock2026 > 挺难理解的

读原文即可：This is only natural of course since the first tools we ran had many more and easier bugs to find. As we have fixed issues along the way, finding new ones are slowly becoming harder. Additionally, a bug can be small or big so it’s not always fair to just compare numbers.

作者并没有想用这个说明什么。

i67c6NJ0r33nC667

May 30

AI 肯定会颠覆挖洞的

lesismal

May 31

@w568w

> 我觉得是你随意扩大了对其观点的解释

我没有扩大解释。因为 curl 这个项目用来做实验，无法代表现实世界中的绝大项目，所以他即使是用 mythos 与其他几个模型对比，也是不能作为靠谱结论的，因为实验方法本身不正确。

> 一方面是 Anthropic 的封闭模式导致目前客观上没有办法在

那他是不是拿 mythos 测的啊？如果是，不能用来测其他类型的项目？如果不是，那就不要给结论。
或者，如果像你说的一样，大家都因为“封闭模式导致目前客观上没有办法在”，那现在就不应该给结论评判 mythos 。

我说不赞同 curl 作者的观点，但不代表我就相信 mythos 如 anthropic 所说的那样强。因为没有真正放出来没有在大量现实世界中的项目上做测试，所以目前应该是没有明确结论的，他们双方都是嘴炮阶段。
但是，相比于 curl 之父用 curl 做实验的错误方式，我更偏向于那些大厂和 anthropic 之间竟然能为了不破坏世界安全、达成协议封闭使用，因为资本通常是用脚投票的，可信度比 curl 之父更大些。但我只是偏向，我仍然不会觉得是结论。

另外，如果你认为 curl 可以用来实验，那 Knuth 老爷子的 LaTex 是不是也可以用来测试？结果也一样适用？

我要测试一把锤子是不是够好用，用玻璃做实验、敲碎了，和用钢板做实验、敲不碎对比，难道实验方法、实验工具不重要吗？这和幸存者偏差是类似的逻辑

lesismal

May 31

#23 @lesismal @w568w 我说 AI 强以及我对未来智慧的看法，但我也加了“一切都是时间问题”，我前面也解释过了，那是延展我对整体的看法，并不是说我夸 AI 了就是为了证明 mythos 强的离谱，这之间没有直接关联的逻辑，不要理解错了。

我反对的，单纯就是 curl 之父不严谨的测试工具和方法。

lesismal

May 31

@w568w 没有必要纠结于争论，我建议是，不要轻信 curl 之父也好、其他的什么之父也好，不要被他们这些身份光环加持下先入为主了。自己独立思考的方式，用科学的方法、流程，站在局外的角度，对这些大佬、大厂都一视同仁的角度和方法来判断，会更清晰。

mooyo

May 31

直接看 linux 最近的情况不就行了，一大堆本地提权漏洞，搁在以前都是 10 分的洞吧，今年几个了？ 4 个还是 5 个？个个原理和利用都简单，个个都暴雷。

fff333

May 31 via Android

@shuiandy 大佬，这个测试时啥思路呀

liyafe1997

May 31

@GG5332 可以集成到 CI/CD 和 Pull Request 中

w568w

May 31

@lesismal > curl 这个项目用来做实验，无法代表现实世界中的绝大项目，所以他即使是用 mythos 与其他几个模型对比，也是不能作为靠谱结论的，因为实验方法本身不正确

所有的单例测试都可以被认为是「不完整」「不典型」的：这个项目热度高、找出来漏洞少，你可以说它本身维护得很好、所以结果不典型；那个项目业务性强、找出来漏洞多，我也可以说都是大厂 KPI 赶工产物、所以结果没有代表性。

唯一可靠的办法是 Anthropic 开放出来，各家企业、组织在自己的项目上试用一遍，但显然这一点目前是不现实的，因为它只开放给少数组织使用。

> 但是，相比于 curl 之父用 curl 做实验的错误方式，我更偏向于那些大厂和 anthropic 之间竟然能为了不破坏世界安全、达成协议封闭使用，因为资本通常是用脚投票的

相比于一个大型 Project Leader 和一群可能只会 vibe 的 CEOs ，我还是更相信 technical head 。另外资本是可以利益交换的，否则按照国内资本的走向，华为一定是全世界最强的计算卡制造商吧。考虑到目前没几家公司出来为 Mythos 用数据背书说明如何如何颠覆性，又如何判断这不是资本的造神游戏呢？

扯远了。就事论事，我不认为现阶段可以下什么最终「结论」。正如你倾向于相信资本背书，我倾向于现在业界对此事 overreact 。关于「达成协议封闭使用」，我有个更简单的猜测：模型太大或 harness 太重，算力没法 scale 上去，没有资源支持做足够的 safety alignment ，所以只能小范围测试。

> 如果你认为 curl 可以用来实验，那 Knuth 老爷子的 LaTex 是不是也可以用来测试？结果也一样适用？我要测试一把锤子是不是够好用，用玻璃做实验、敲碎了，和用钢板做实验、敲不碎对比，难道实验方法、实验工具不重要吗？

正因为重要，所以需要大量不同项目的 case reports 。如果有一大批项目证明/证伪了 curl 项目的测试结论，展现出了 Mythos 的颠覆性/平庸性，那我自然会相信的。这是「科学的方法、流程，站在局外的角度」。

更进一步，我要问：为什么 Mythos 在 Curl 上表现不尽人意？是他们使用了错误的 Harness ？难道是 Curl 本身太完美了（这是不成立的，Curl 最近一年都爆出了几次安全漏洞）？以及 Mythos 如何比现有的 Opus 等公开模型表现好？漏洞检出率提升了多少？为什么假阳性率如此高（ 4 in 5 ）？

至少我会对官方宣称的闭门测试结果打上问号。毕竟我见过的「为了刷榜而暗改 benchmark 的 AI 公司」比「为了反对 AI 而伪造实验结果的 Project Lead 」要多得多。

> 我反对的，单纯就是 curl 之父不严谨的测试工具和方法。

而我想表达的也仅仅是回答楼主的问题：「有大佬实际用过」，Mythos 并没有「那么牛逼」。看来在观点上并没有根本性的冲突啊。

abersheeran

May 31

如果真的从事过网络安全或者信息安全行业，那应该能知道，这个行业活下去从来不是靠从业者多聪明，而是其他人足够傻。Claude Mythos 颠覆不了信息安全行业，我现在还在修傻逼脚本判定出来的上古安全风险呢。

等保不光中国有，美利坚也整这玩意。

abersheeran

May 31

我们也用 Claude Mythos 对我们的服务扫过了，没挖出来任何洞。我的 Web 框架和 ODM 也没被挖出来什么洞。

那公司天天跳出来说什么 AGI 、Claude 自主意识、Claude Mythos 太强了不给开放的人，单纯是因为资金、算力压力太大了，不吹点恐慌出来没办法。如果我是他，我也吹，屁股决定脑袋了。

lesismal

May 31

@w568w

> 所有的单例测试都可以被认为是「不完整」「不典型」的：这个项目热度高、找出来漏洞少，你可以说它本身维护得很好、所以结果不典型；那个项目业务性强、找出来漏洞多，我也可以说都是大厂 KPI 赶工产物、所以结果没有代表性。

区别还是比较明显吧。我说的现实世界的项目，大多数甚至绝大多数都是涉及 web 服务类的，安全攻击重灾区，而且这种服务数量太多了，而且有很多种不同的语言，脚本的、java 的那些，社区框架漏洞很多，安全圈子红的白的黑的灰的各种大佬各种提权拿肉机的挖矿的黑数据库的，这些事情每天都在大量发生。即便 curl 过去一年爆出多少漏洞，相比于现实网络换几个闹钟功能的节点数量和使用的技术栈，curl 仍然是属于安全高质量的样本。所以我仍然觉得，如果非要用 curl 来代表，真的没有代表性，就算做取样，也不应该取个覆盖度这么低的。

> 相比于一个大型 Project Leader 和一群可能只会 vibe 的 CEOs ，我还是更相信 technical head

我尊重 curl 作者是一个很好的开发者，但是如我所述，他的实验方法/工具用的不对，所以我不赞同他的观点，前面也说过了，不赞同他不代表我同意 mythos 强到离谱，而是我和你一样 “就事论事，我不认为现阶段可以下什么最终「结论」。”

> 正如你倾向于相信资本背书

这世界的大方向，是资本在推动的，比如罗斯柴尔德家族，看看历史上的战争、除了战争主线之外，背后的那些事，虽然资本不是绝对作用，但是作用很大。相对和平年代，资本的力量比战争年代可能更大。

> 而我想表达的也仅仅是回答楼主的问题：「有大佬实际用过」，Mythos 并没有「那么牛逼」。看来在观点上并没有根本性的冲突啊。

本来也没有冲突啊，我在 #11 总结就是：“所以我是不赞同 curl 作者的观点的。”，不是说你的观点有问题。

@abersheeran

> 那公司天天跳出来说什么 AGI 、Claude 自主意识、Claude Mythos 太强了不给开放的人，单纯是因为资金、算力压力太大了，不吹点恐慌出来没办法。如果我是他，我也吹，屁股决定脑袋了。

但是啊，anthropic 根本就不缺钱、它要是肯开放募集、我抢着投它，但是人家也挑剔的，这些顶级新兴独角兽更是要大厂加持联姻绑定，不只是要钱，还要他们背后的资源。
算力是大家都缺的，去年几家厂还说电力不够用、很多 N 卡在吃灰，结果今年都在算力不够，连 copilot 明天都要开始取消按请求次数计费、改按 token 收费了。

我自己已经相当于一年没手写过代码了，这一年里，除了偶尔自己手残写一点然后马上后悔、不断提醒自己一切交给 AI ，只有少数几次，应该不超过十次，而且只是很小几行。其他的，已经全 AI 了。

msg7086

May 31

不是，挖洞的前提是你得有洞啊，一个设计精良且没什么攻击面的项目丢给 AI ，你指望他能挖出什么来。
但是你想想外面那些闭源项目呢。别的不说，光一个 Windows 或者 Office 就能挖出多少洞来？
我司已经把之前的 monthly patching 转成 weekly patching 了。找到的漏洞不算很多，但应该在 3 位数-4 位数这个量级上，大多数是低危漏洞，但也不排除会有一些高危的。

还有像 Linux 这样的大项目，每个组件之间肯定实现质量有差别，最近挖出来的几个大洞都是用的人少但炸得大的。

shuiandy

May 31

@fff333 公司给项目做渗透测试的时候会给你个测试环境，源代码公司仓库里有，扔给 claude 让它先看路由，然后根据源代码来找可能的漏洞，再去测试漏洞是不是可用，测试这阶段需要 claude 跟自己手动完成，最后让 claude 出个报告完事儿。
现阶段 ai 还不能完全代替人去把所有阶段全做了，并且最后找出的漏洞也需要人去审核验证。

vgovgo

May 31

正在用。用下来感觉，只对一些特定行业或者领域，可能更有效。

GG5332

Jun 10

Fable 5 ，好像就是把 Mythos 做下安全限制的版本，https://www.anthropic.com/news/claude-fable-5-mythos-5