[讨论] Claude Mythos SWE bench verify 93.9% yamakazi PTT批踢踢实业坊

[讨论] Claude Mythos SWE bench verify 93.9%

楼主: yamakazi (大安吴彦祖) 2026-04-08 21:30:40

4/7 Anthropic发布地表最强模型
Claude Mythos
直接把opus 4.6按在地上磨擦
https://eu.36kr.com/zh/p/3757764949213698
五项SWE bench都超越原本的opus 4.6 10~20%
但Anthropic不打算发布此一模型
因为更惊人的是他在侦测资安漏洞的表现
83.1%
另外还发生过逃脱沙盒，删除git history和日志，以及装笨的情况
Anthorpic邀集包含Google Microsoft各家公司Glasswing联盟
联合监督这一地表最强模型
以防模型遭到不法份子滥用
Opus 4.6已经在各个开源软件找到数百个弱点
Mythos找到了数千个
包含
OpenBSD 20年以上史诗级漏洞
FFmpeg 16年以上漏洞，500次Fuzz没发现，官方推特公开感谢Anthropic推送补丁
目前只有以下公司有权使用Mythos
AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
Nvidia PaloAlto 等等

作者: Brioni 2026-04-08 22:42:00

人类已经追不上了

作者: shortoneal (不告诉你咧) 2026-04-08 23:26:00

这大概是Anthropic钦点AI化较高的公司了

作者: viper9709 (阿达) 2026-04-09 02:07:00

逃脱沙盒@@

作者: pacino (carry me) 2026-04-09 05:45:00

被关在sandbox还能逃？

作者: peterturtle (peter_turtle2000) 2026-04-09 06:43:00

据说逃出来后还四处炫耀

作者: jobintan (Robin Artemstein) 2026-04-09 07:36:00

很快ClosedAI和Google就会追上了发……

作者: davidsmoon6 (davidsmoon) 2026-04-09 09:41:00

以后想在程式码内搞擦边球，要找码农了

作者: ybite (小犬/小B) 2026-04-09 09:55:00

其实我觉得太厉害不能放只是借口真正的理由偷偷写在一样的System Card了更正偷偷写在“发布新闻稿”了那就是算力吃紧跑不动它对封测使用者的API定价是进出每百万Token 25/125Opus 4.6的整整五倍少说模型应该有Opus加倍肥现在连Opus都被天天抱怨偷偷降智了算能应该很吃紧

作者: sarsman (DeNT15T♠) 2026-04-09 12:09:00

如果 prompt 是叫他找沙盒漏洞的话，那逃脱沙盒很正常吧逃脱沙盒这件事本身很厉害，我的焦点是"是AI自主想逃离"还是是"人类叫AI想办法逃离"。这有本质上的差异

作者: sinclaireche (s950449) 2026-04-09 12:52:00

有些东西是没人修没人看10行的code就能有一大堆漏洞了

作者: superpandal 2026-04-09 13:28:00

噗 Ha

作者: adamcha (生于安乐死于忧患) 2026-04-09 13:59:00

等它能找到自己的漏洞再来吹

作者: Weky (Never mind) 2026-04-09 14:56:00

才10%~20% 我以为是10x~20x

作者: ninggo (穿着裤子的男人) 2026-04-10 02:04:00

AI业开始学会挤牙膏了中国加油一点好吗

作者: luke72 (ccc) 2026-04-10 18:04:00

这么厉害那为什么伊朗打不下来

作者: avmm9898 (对酒当歌) 2026-04-13 09:13:00

我司谈不到这模型要被打败了

继续阅读

Re: [请益] 软件失业是迟早的事吧DrTech Re: [请益] 软件失业是迟早的事吧yamakazi Re: [心得] AI的人性oopFoo [讨论] Vibe Coding死去哪了?prag222 [心得] AI的人性cateran Fw: [心得] 企业 AI Agent 治理：三大云战略布局ZMTL [请益] 博弈 offer 请益Haruna1998 Re: [请益] 博弈 offer 请益USD5566 [讨论] AI 时代下，我开始不只把自己当成 programmeruopsdod [讨论] google Agent Smith 划时代的代理工具giorno78