Re: [新闻] Grok 答不出〈柏德之门 3〉问题，马斯克 hips PTT批踢踢实业坊

Re: [新闻] Grok 答不出〈柏德之门 3〉问题，马斯克

楼主: hips (hips) 2026-02-28 08:16:46

这就说明现在的AI离AGI还很遥远。
起码要训练成能自己去理解一个游戏直到超越人类
研究出不同的打法，build等
就像围棋，完全改变了人类传统先角再边的开局
当然，整理论坛的知识不能说没用
但可能流于垃圾进垃圾出，缺乏实际理解。
※ 引述《pl132 (pl132)》之铭言
: Grok 答不出〈柏德之门 3〉问题，马斯克怒冻模型更新、抽调工程师紧急救火
: https://tinyurl.com/26njc4h2
: 伊隆‧马斯克（Elon Musk）旗下 AI 公司 xAI 去年曾因聊天机器人 Grok 无法准确回答
: 〈柏德之门〉（Baldur’s Gate）游戏细节问题，延迟数天推出模型更新。xAI 更紧急抽
: 调多名高级工程师放下手头项目，专门协助改善 Grok 游戏知识库。
: 工程师临时被抽调游戏问题触发内部混乱
: Business Insider 深度调查报导披露，Elon Musk 对 Grok 回答〈柏德之门 3〉（
: Baldur’s Gate 3）细节问题表现强烈不满，下令延迟推出相关模型更新。他要求高级工
: 程师放下手头项目，转而处理游戏知识不足问题。部分前 xAI 员工形容公司工作氛围犹
: 如无休止消防演习。xAI 位于帕罗奥图（Palo Alto）总部设有多个作战室，随时应对各
: 种紧急情况。Elon Musk 对游戏知识执著程度不只于此。他同时要求工程师提升 Grok
: 在〈英雄联盟〉（League of Legends）游戏能力，目标更是达到最高挑战者（
: Challenger）段位。
: Larian Studios 开发〈柏德之门 3〉，以龙与地下城（Dungeons & Dragons）为背景。
: 游戏剧情复杂且机制丰富，广受 RPG 玩家好评。由于网络上有大量相关攻略可供参考，
: 业界对 Grok 当时连这款游戏细节问题也答错感到相当意外。
: Grok 成绩大翻身准确率现达 92%
: 事发后 Grok 于〈柏德之门 3〉相关知识表现明显改善。TechCrunch 于 2026 年 2 月报
: 导，Grok 现时已能准确回答〈柏德之门〉相关问题。有测试机构以 BaldurBench 为名，
: 向 Grok、ChatGPT、Claude 及 Gemini 各提出 5 条〈柏德之门〉相关问题进行比较。结
: 果显示 Grok 整体胜任，准确率据报达 92%。
: 四大 AI 风格各异
: 测试结果显示各 AI 回答游戏问题时风格截然不同。Grok 偏好以表格形式呈现资料，并
: 大量使用 save-scumming 及 DPS 等玩家术语，不熟悉游戏用户较难理解。ChatGPT 倾向
: 以重点列表简洁作答。Gemini 着重以粗体标示关键词。Claude 则对剧透极为谨慎，建
: 议玩家自行探索游戏。由于各 AI 大多从相同网上攻略资源汲取知识，回答风格差异比内
: 容差异更为明显。
: 这次事件突显 xAI 内部管理混乱。这同时反映 Elon Musk 对 Grok 能力有极高要求，最
: 终让 Grok 游戏知识领域能力得到大幅提升。
: 这难道是老马玩游戏时候,查询AI结果得到错误答案,所以不爽才叫人修吗

继续阅读

[讨论] 交大电子男同学: 都收不到台积面邀 (设备)empliu [新闻] Grok 答不出〈柏德之门 3〉问题，马斯克pl132 Re: [讨论] 看AI发展到目前的心得redbeansyrup [心得] 高三小穴嫩到爆汁一插就溼叫不停从后面进kain3658 [新闻] 联电去年员工分红34.38亿元平均每人约26qazxc1156892 [新闻] 新报告显示，跟AI沾上边的五个新创公司stpiknow [请益] 美国硕士电机/工程管理回台就业考量bsexp317156 [请益] 先进三厂整合vs旺宏产品TENBACK [公告] 板务处理jerejesse [讨论] 看AI发展到目前的心得redbeansyrup