「开源Claude时刻」,智谱GLM5.2与Mythos被放在一起了
创始人
2026-06-29 16:22:06

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

这个周末,智谱没闲着。

多家外媒接连跟进报道,华尔街时报更是直言 「中国重置了AI竞赛」

因为,智谱的GLM-5.2,让Claude Mythos在找安全漏洞这件事上,不再是独一无二的神话了!

代码安全公司Semgrep写了篇测评,标题直接叫「We have Mythos at Home」。

热议的核心只有一件事, GLM-5.2在找安全漏洞这件事上追平了Mythos

X上的讨论也跟着炸了。

Databricks研究员Yuchen Jin说,这是 「开源领域的Claude时刻」,他们看到的需求增长让人震惊。

GLM找漏洞追平Mythos

Semgrep做这个测试,最初其实不是为了找最强的开源模型。

他们想弄清的是另一件事,AI找漏洞的成绩,到底有多少是模型本身的能力,又有多少是外面那层脚手架的功劳。

结果把他们自己吓到了。

GLM-5.2在这次测试里没有任何加持和引导, 只有一个prompt和一堆代码裸跑,结果最终在IDOR漏洞检测上拿到39%的F1分

这个成绩不仅超过了同样裸跑的其他开源模型,连带着完整SDK加持、搭载Opus 4.8的Claude Code都打败了,后者只有32%。

而且GLM-5.2价格低廉,每找到一个漏洞的计算成本,只要0.17美元。

而且根据华尔街日报的文章显示, 加了额外指令之后,GLM-5.2的漏洞查找能力可以进一步追平Mythos

这里插播解释一下IDOR是什么。

简单说,就是一个系统暴露了内部的用户ID或数据库键值,但没有验证请求方是否有权限访问它,改一下ID,就能拿到别人的数据。

听起来简单,但这类漏洞在安全圈出了名的难检测,因为它不像普通的危险函数调用那样有迹可循,它考验的是模型能不能发现一个「本该存在但缺失的校验」。

目前IDOR在HackerOne漏洞类型榜上排第四,是实战中最常被利用的漏洞之一。

值得一提的是,GLM-5.2和排名第二的开源模型之间的差距,比它和Claude Code之间的差距还要大16个百分点。

换句话说,这不是开源模型集体追上来了,就是智谱一骑绝尘,在这个任务上独自跨过了那道门槛。

当然,性价比也是这个故事的一部分。

GLM-5.2的输出token价格是Claude Opus 4.8的五分之一,GPT-5.5的七分之一。

在Kilo Code里拿它跑规划任务,能拿到9.0分的水平,Fable 5是9.1,二者几乎打平。

国产模型正在崛起

7AI的CEO Lior Div说,中国在持续缩小与美国的差距,且这个趋势不会停。

数据也在印证这个判断,Stanford 2026 AI Index显示,美中两国最强模型之间的综合能力差距已经收窄到2.7个百分点。

这次智谱追上的,偏偏是AI能力里最敏感、也最具战略价值的那个维度——网络安全。

而且这次追平,背后有一条持续加速的轨道在支撑。

智谱在过去四个月里发布了四个前沿级coding模型,GLM-5、5-Turbo、5.1、5.2,这个节奏和任何一家顶级实验室相比都不落下风。

智谱创始人唐杰在Mythos Preview发布后说过,AI找漏洞学的不只是搜索,而是顶级黑客的直觉和方法论,而且可以24小时不间断运转。

他的结论是,这本质上是一场替代黑客的革命。

另外智谱也不是孤例,就在GLM-5.2引发热议的同一周,另一家中国安全公司360,也宣布推出了自己的漏洞检测工具,同样声称能够比肩Mythos。

至于这个维度为什么特殊,还要从Mythos说起。

它曾花两天、约2万美元的算力,挖出一个藏在OpenBSD里长达27年、从未被人发现的漏洞。

Anthropic研究员Nicholas Carlini用一套后来被叫做「Carlini Loop」的提示词驱动Mythos扫代码,翻出数百个bug,其中Ghost平台的一个漏洞在几周后就被黑客在野利用了。

这套能力能守,也能攻,已经被现实验证过了。

安全圈有个词叫bugmageddon,说的是一个正在发生的现实——AI发现漏洞的速度,已经超过了人类打补丁的速度。

八年前,一个漏洞从被发现到被利用,平均需要847天。现在这个窗口已经缩短到一天以内。

也正是在这个背景下,曾领导Google安全团队的Niels Provos说出了那句判断——这种局面正把全球用户推向更便宜但同样强大的中国开源模型。

差距在缩小,使用天平也在同步倾斜,本质上是市场在用实际行动,对国产模型的AI Coding能力投下赞成票。

六月中旬,马斯克在X上说,智谱最快到明年初就能在benchmark上追上美国顶尖模型。

当时智谱创始人唐杰回了一句,「不用那么久」。

现在看来,至少在找安全漏洞这件事上,他说对了。

参考链接:

[1]https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/

[2]https://www.wsj.com/tech/ai/chinese-ai-anthropic-mythos-cybersecurity-574b02c2

相关内容

热门资讯

原创 当... 在光影交织的世界里,“旅馆”常常不仅仅是一个歇脚过夜的场所,它更像是一个微缩的社会舞台,承载着人物的...
深度分享徐州特产,从美食到文创... 每次外地朋友问我:“去徐州玩一趟,到底能带点啥回来?”我总会陷入短暂的沉默。不是没得选,而是能说的太...