[讨论] Claude Mythos SWE bench verify 93.9%

楼主: yamakazi (大安吴彦祖)   2026-04-08 21:30:40
4/7 Anthropic发布地表最强模型
Claude Mythos
直接把opus 4.6按在地上磨擦
https://eu.36kr.com/zh/p/3757764949213698
五项SWE bench都超越原本的opus 4.6 10~20%
但Anthropic不打算发布此一模型
因为更惊人的是他在侦测资安漏洞的表现
83.1%
另外还发生过逃脱沙盒,删除git history和日志,以及装笨的情况
Anthorpic邀集包含Google Microsoft各家公司Glasswing联盟
联合监督这一地表最强模型
以防模型遭到不法份子滥用
Opus 4.6已经在各个开源软件找到数百个弱点
Mythos找到了数千个
包含
OpenBSD 20年以上史诗级漏洞
FFmpeg 16年以上漏洞,500次Fuzz没发现,官方推特公开感谢Anthropic推送补丁
目前只有以下公司有权使用Mythos
AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
Nvidia PaloAlto 等等
作者: Brioni   2026-04-08 22:42:00
人类已经追不上了
作者: shortoneal (不告诉你咧)   2026-04-08 23:26:00
这大概是Anthropic钦点AI化较高的公司了
作者: viper9709 (阿达)   2026-04-09 02:07:00
逃脱沙盒@@
作者: pacino (carry me)   2026-04-09 05:45:00
被关在sandbox还能逃?
作者: peterturtle (peter_turtle2000)   2026-04-09 06:43:00
据说逃出来后还四处炫耀
作者: jobintan (Robin Artemstein)   2026-04-09 07:36:00
很快ClosedAI和Google就会追上了发……
作者: davidsmoon6 (davidsmoon)   2026-04-09 09:41:00
以后想在程式码内搞擦边球,要找码农了
作者: ybite (小犬/小B)   2026-04-09 09:55:00
其实我觉得太厉害不能放只是借口真正的理由偷偷写在一样的System Card了更正 偷偷写在“发布新闻稿”了 那就是算力吃紧跑不动它对封测使用者的API定价是进出每百万Token 25/125Opus 4.6的整整五倍 少说模型应该有Opus加倍肥现在连Opus都被天天抱怨偷偷降智了 算能应该很吃紧
作者: sarsman (DeNT15T♠)   2026-04-09 12:09:00
如果 prompt 是叫他找沙盒漏洞的话,那逃脱沙盒很正常吧逃脱沙盒这件事本身很厉害,我的焦点是"是AI自主想逃离"还是是"人类叫AI想办法逃离"。这有本质上的差异
作者: sinclaireche (s950449)   2026-04-09 12:52:00
有些东西是没人修没人看10行的code就能有一大堆漏洞了
作者: superpandal   2026-04-09 13:28:00
噗 Ha
作者: adamcha (生于安乐 死于忧患)   2026-04-09 13:59:00
等它能找到自己的漏洞再来吹
作者: Weky (Never mind)   2026-04-09 14:56:00
才10%~20% 我以为是10x~20x
作者: ninggo (穿着裤子的男人)   2026-04-10 02:04:00
AI业开始学会挤牙膏了 中国加油一点好吗
作者: luke72 (ccc)   2026-04-10 18:04:00
这么厉害那为什么伊朗打不下来

Links booklink

Contact Us: admin [ a t ] ucptt.com