https://arcprize.org/arc-agi/3
按Play [Humans]开始玩
说明:
ARC-AGI-3 是 2026 年 3 月底才正式推出的交互式(agentic)基准测试,跟之前的
ARC-AGI-1/2 很不一样。它不是静态的格子拼图,而是让 AI 在完全陌生的环境中探索、
即时学习目标、建立世界模型、并有效率地行动。
人类在这些环境中几乎都能 100% 解决(通常几分钟内搞定)。
前沿大模型 的表现非常惨:Google Gemini 3.1 Pro Preview:最高约 0.37%
OpenAI GPT-5.4 High:约 0.26%
Anthropic Claude Opus 4.6 Max:约 0.25%
xAI Grok 4.20(Reasoning 模式):0%
整体来说,目前所有公开测试的前沿 AI 分数都低于 1%,远远达不到“破关”的程度。
公开的 agent 尝试(非官方大模型 leaderboard)在 ARC Prize 官方的 unverified
live leaderboard(开放给大家提交 agent 的排行),目前最好的开源/自制 agent 分
数也只有 12.58%(StochasticGoose 团队,完成 18 个 levels),其他大多在 3~8% 左
右。这些是专门为 ARC-AGI-3 设计的 agent,不是纯靠大模型。
ARC Prize 2026 竞赛现况总奖金高达 200 万美元,其中 ARC-AGI-3 轨道的 Grand
Prize(100%) 是 70 万美元。
比赛刚开始没多久(2026/3/25 启动),还有好几个月才到 milestone 和最终截止,目
前还在早期阶段,没有人接近 100%。
之前 2025 年的 ARC Prize(主要用 ARC-AGI-2)最高也只到 24% 左右,Grand Prize
同样没人领走。
简单说,ARC-AGI-3 现在是目前最“未饱和”的 AGI 相关基准之一,专门用来测量 AI
在全新情境下的流体智能(fluid intelligence)和学习效率,目前 AI 跟人类的差距还
非常明显。