[闲聊] AI使用Minecraft作为评测基准 error405 PTT批踢踢实业坊

[闲聊] AI使用Minecraft作为评测基准

楼主: error405 (流河=L) 2026-06-13 10:11:00

https://x.com/Meituan_LongCat/status/2065464844112064541
https://pbs.twimg.com/media/HKn6bXxakAEBkSh.jpg
AI 使用 Minecraft 作为评测基准：MineExplorer 简单介绍
你有没有想过，玩《我的世界》（Minecraft）居然能用来测试 AI 的智慧程度？最近，
美团 LongCat 团队推出了一个名为 MineExplorer 的 AI 评测基准（Benchmark），它
把 Minecraft 这个开放世界游戏变成了一个科学的“AI 考场”，专门测试 AI 代理人在
复杂、真实环境中的探索能力。
为什么用 Minecraft 来测 AI？
传统的 AI 测试通常是给 AI 看图片、回答问题，或完成短暂的固定任务，这些测试比较
“静态”且不够接近真实世界。
Minecraft 的优点在于：
开放世界：地图很大、资源分散，AI 必须自己探索。
动态变化：AI 每走一步，世界就会即时改变（不像固定考卷）。
需要长期规划：任务可能要花好几分钟、上千个步骤才能完成。
接近真实生活：需要观察环境、推理因果、制定计划、执行行动，几乎把“在未知世界生
存”这件事浓缩进去了。
MineExplorer 的核心概念
MineExplorer 不是随便让 AI 去玩 Minecraft，而是设计了一系列有难度的结构化任务
。
例如：
简单任务（Single-hop）：找到一棵树并砍下来。
困难任务（Multi-hop，多跳）：AI 必须先找到某个地标 → 清除障碍 → 收集材料 →
合成工具 → 才能达成最终目标。
这些任务里面藏了很多“隐藏的前提条件”（hidden prerequisites），AI 看不到明显
提示，必须靠自己推理才能一步步完成。
团队还开发了自动评分系统，使用规则来检查 AI 是否真的达成了每个里程碑（
milestones），不需要人工打分。
目前 AI 表现如何？
https://pbs.twimg.com/media/HKn5Y-6b0AAxqY1.jpg
研究团队测试了 18 个最先进的多模态大语言模型（包含 GPT5.4、Claude、Gemini 等）
，结果显示：
最佳模型也只拿到 41 分（满分 100）。
简单一步任务还算可以，但需要多步推理的任务，成功率就大幅下滑。
最常失败的原因竟然是最基本的导航：AI 明明看得到目标，却常常找不到路或卡住。
即使给 AI 更长的记忆，也没有显著帮助，有时还因为记太多旧画面而变差。
这显示：现在的 AI 虽然“看得见”世界，却还不擅长“探索”和“长期规划”世界。
为什么这个基准重要？
MineExplorer 提供了一个公开、透明、可重现的测试平台，让研究人员能清楚衡量 AI
在开放世界中的真实能力。它不只用来排名模型，更开放了任务生成工具，任何人都可以
用它来产生新任务，或用来训练更强的 AI 代理人。
未来，当 AI 在 MineExplorer 上拿到高分时，可能代表它已经具备更接近人类的探索与
适应能力，这对机器人、自动驾驶、游戏 NPC 等实际应用有很大帮助。
总结
Minecraft 不再只是游戏，它已经成为 AI 研究的重要“沙盒”。MineExplorer 把这个
沙盒变得更有系统、更科学，让我们能清楚看到目前 AI 的极限在哪里，以及未来还需要
突破哪些关键能力。想了解更多，可以去看他们的：
GitHub 专案
https://github.com/meituan-longcat/MineExplorer
Hugging Face 资料集
https://huggingface.co/datasets/meituan-longcat/MineExplorer
论文（arXiv 2605.30931）
https://arxiv.org/abs/2605.30931
你觉得 AI 什么时候才能在 Minecraft 里像人类玩家一样自由探索呢？

作者: Koyomiiii (Koyomi) 2026-06-13 10:12:00

大家真的想要的是挖矿工人吧自由探索当然是玩家探索 AI给我去挖矿！

作者: shadowblade (影刃) 2026-06-13 10:13:00

目前这种非逻辑式的打字机要能顺利运作有难度

楼主: error405 (流河=L) 2026-06-13 10:14:00

AINPC帮你挖矿模组的话记得很早就有了

作者: serding (累紧地们) 2026-06-13 10:14:00

给AI玩红石线路

作者: louie0909 (法老ATM) 2026-06-13 10:15:00

麦块说真的也不容易，让一个从来没玩过游戏的人来玩高机率也拿不到41分

作者: tim1112 (çµ•ä»£ç•¶ä¸–åŠå·”) 2026-06-13 10:16:00

现在Chatgpt不是已经到五了吗