[闲聊] AI使用Minecraft作为评测基准

楼主: error405 (流河=L)   2026-06-13 10:11:00
https://x.com/Meituan_LongCat/status/2065464844112064541
https://pbs.twimg.com/media/HKn6bXxakAEBkSh.jpg
AI 使用 Minecraft 作为评测基准:MineExplorer 简单介绍
你有没有想过,玩《我的世界》(Minecraft)居然能用来测试 AI 的智慧程度?最近,
美团 LongCat 团队推出了一个名为 MineExplorer 的 AI 评测基准(Benchmark),它
把 Minecraft 这个开放世界游戏变成了一个科学的“AI 考场”,专门测试 AI 代理人在
复杂、真实环境中的探索能力。
为什么用 Minecraft 来测 AI?
传统的 AI 测试通常是给 AI 看图片、回答问题,或完成短暂的固定任务,这些测试比较
“静态”且不够接近真实世界。
Minecraft 的优点在于:
开放世界:地图很大、资源分散,AI 必须自己探索。
动态变化:AI 每走一步,世界就会即时改变(不像固定考卷)。
需要长期规划:任务可能要花好几分钟、上千个步骤才能完成。
接近真实生活:需要观察环境、推理因果、制定计划、执行行动,几乎把“在未知世界生
存”这件事浓缩进去了。
MineExplorer 的核心概念
MineExplorer 不是随便让 AI 去玩 Minecraft,而是设计了一系列有难度的结构化任务

例如:
简单任务(Single-hop):找到一棵树并砍下来。
困难任务(Multi-hop,多跳):AI 必须先找到某个地标 → 清除障碍 → 收集材料 →
合成工具 → 才能达成最终目标。
这些任务里面藏了很多“隐藏的前提条件”(hidden prerequisites),AI 看不到明显
提示,必须靠自己推理才能一步步完成。
团队还开发了自动评分系统,使用规则来检查 AI 是否真的达成了每个里程碑(
milestones),不需要人工打分。
目前 AI 表现如何?
https://pbs.twimg.com/media/HKn5Y-6b0AAxqY1.jpg
研究团队测试了 18 个最先进的多模态大语言模型(包含 GPT5.4、Claude、Gemini 等)
,结果显示:
最佳模型也只拿到 41 分(满分 100)。
简单一步任务还算可以,但需要多步推理的任务,成功率就大幅下滑。
最常失败的原因竟然是最基本的导航:AI 明明看得到目标,却常常找不到路或卡住。
即使给 AI 更长的记忆,也没有显著帮助,有时还因为记太多旧画面而变差。
这显示:现在的 AI 虽然“看得见”世界,却还不擅长“探索”和“长期规划”世界。
为什么这个基准重要?
MineExplorer 提供了一个公开、透明、可重现的测试平台,让研究人员能清楚衡量 AI
在开放世界中的真实能力。它不只用来排名模型,更开放了任务生成工具,任何人都可以
用它来产生新任务,或用来训练更强的 AI 代理人。
未来,当 AI 在 MineExplorer 上拿到高分时,可能代表它已经具备更接近人类的探索与
适应能力,这对机器人、自动驾驶、游戏 NPC 等实际应用有很大帮助。
总结
Minecraft 不再只是游戏,它已经成为 AI 研究的重要“沙盒”。MineExplorer 把这个
沙盒变得更有系统、更科学,让我们能清楚看到目前 AI 的极限在哪里,以及未来还需要
突破哪些关键能力。想了解更多,可以去看他们的:
GitHub 专案
https://github.com/meituan-longcat/MineExplorer
Hugging Face 资料集
https://huggingface.co/datasets/meituan-longcat/MineExplorer
论文(arXiv 2605.30931)
https://arxiv.org/abs/2605.30931
你觉得 AI 什么时候才能在 Minecraft 里像人类玩家一样自由探索呢?
作者: Koyomiiii (Koyomi)   2026-06-13 10:12:00
大家真的想要的是挖矿工人吧自由探索当然是玩家探索 AI给我去挖矿!
作者: shadowblade (影刃)   2026-06-13 10:13:00
目前这种非逻辑式的打字机要能顺利运作有难度
楼主: error405 (流河=L)   2026-06-13 10:14:00
AINPC帮你挖矿模组的话记得很早就有了
作者: serding (累紧地们)   2026-06-13 10:14:00
给AI玩红石线路
作者: louie0909 (法老ATM)   2026-06-13 10:15:00
麦块说真的也不容易,让一个从来没玩过游戏的人来玩高机率也拿不到41分
作者: tim1112 (絕代當世劍巔)   2026-06-13 10:16:00
现在Chatgpt不是已经到五了吗
作者: spfy (spfy)   2026-06-13 10:19:00
研究都要花时间假设实验总结 很花时间吧
作者: jerryhd921 (彻底没救的百合豚)   2026-06-13 10:20:00
从宝可梦毕业了
楼主: error405 (流河=L)   2026-06-13 10:20:00
用的是gpt5.4啦 改了
作者: crimsonmoon9 (绯月)   2026-06-13 10:27:00
主要还是操纵问题吧 物品合成列表那些的应该早就被学进去了
作者: kenkenken31 (呆呆傻蛋)   2026-06-13 10:28:00
完蛋,我都随便盖,被AI当白痴了
作者: guogu   2026-06-13 11:13:00
之前有个用小游戏让AI自己理解规则去玩的 测起来也很惨烈感觉目前这些AI对真正理解还是不太行但固定规则知道要干嘛就很强话说怎么没有老马的grok啊?
楼主: error405 (流河=L)   2026-06-13 11:26:00
grok掉队好阵子了 毕竟内部人走了一大批
作者: befaithful (观察者)   2026-06-13 13:28:00
neuro可以拿几分?

Links booklink

Contact Us: admin [ a t ] ucptt.com