[闲聊] 玩小游戏证明你比AI聪明 ARC-AGI-3 error405 PTT批踢踢实业坊

[闲聊] 玩小游戏证明你比AI聪明 ARC-AGI-3

楼主: error405 (流河=L) 2026-04-06 18:01:54

https://arcprize.org/arc-agi/3
按Play [Humans]开始玩
说明:
ARC-AGI-3 是 2026 年 3 月底才正式推出的交互式（agentic）基准测试，跟之前的
ARC-AGI-1/2 很不一样。它不是静态的格子拼图，而是让 AI 在完全陌生的环境中探索、
即时学习目标、建立世界模型、并有效率地行动。
人类在这些环境中几乎都能 100% 解决（通常几分钟内搞定）。
前沿大模型的表现非常惨：Google Gemini 3.1 Pro Preview：最高约 0.37%
OpenAI GPT-5.4 High：约 0.26%
Anthropic Claude Opus 4.6 Max：约 0.25%
xAI Grok 4.20（Reasoning 模式）：0%
整体来说，目前所有公开测试的前沿 AI 分数都低于 1%，远远达不到“破关”的程度。
公开的 agent 尝试（非官方大模型 leaderboard）在 ARC Prize 官方的 unverified
live leaderboard（开放给大家提交 agent 的排行），目前最好的开源/自制 agent 分
数也只有 12.58%（StochasticGoose 团队，完成 18 个 levels），其他大多在 3~8% 左
右。这些是专门为 ARC-AGI-3 设计的 agent，不是纯靠大模型。
ARC Prize 2026 竞赛现况总奖金高达 200 万美元，其中 ARC-AGI-3 轨道的 Grand
Prize（100%）是 70 万美元。
比赛刚开始没多久（2026/3/25 启动），还有好几个月才到 milestone 和最终截止，目
前还在早期阶段，没有人接近 100%。
之前 2025 年的 ARC Prize（主要用 ARC-AGI-2）最高也只到 24% 左右，Grand Prize
同样没人领走。
简单说，ARC-AGI-3 现在是目前最“未饱和”的 AGI 相关基准之一，专门用来测量 AI
在全新情境下的流体智能（fluid intelligence）和学习效率，目前 AI 跟人类的差距还
非常明显。

作者: uohZemllac (甘草精华雄没醉) 2026-04-06 18:24:00

还挺容易的不知道语言模型是卡在什么地方

作者: Vivian1913 (Vivian1913) 2026-04-06 18:30:00

应该是语言模型没有真正的形式和非形式逻辑能力吧

作者: qd6590 (说好吃) 2026-04-06 19:06:00

YA 我比AI还聪明

继续阅读

[妮姬] 3.5周年人气投票预告serding [中国] 年轻人兴起为名人扫墓曹操墓前头痛药bamama56 [钢弹] 捡到独角兽V.S捡到自由rsbbs0611428 [闲聊] 你各位喜欢+100%血量还是50%减伤NozoxEli [新闻] 写公开信爆料“4年没见老板”！holostarschiafann [闲聊] 御田怎么可能打不破屏障p8410077 [闲聊] 来自阿姨的问候Senkanseiki [新闻] 推し活不只追星“推し活”市场冲3.5兆日seiya2000 [闲聊] 烤肠一条60真的靠北贵吧？Muilie [死神] 甜点破道の九十・黒棺完全/咏唱破弃版w790818

藍沢潤エスワン8時間コンプリートBEST

バズりたくて…おま●こまで動画投稿されちゃったZ世代の女子●生早坂ひめ

彼氏へのあてつけで浮気しにきた欲求不満学生。玩具も騎乗位もハジメテのぬるいSEXしかしたことのない無垢な美少女の極狭マ○コの膣奥まで貫く激エグピストンで昇天！中出しOKの言質とって寝取り種付け！

つきまとい02 ～地味な子の制服姿・自宅・私服姿を何日も盗撮記録～