[新闻] OpenAI语言模型o3公开反抗!“自行”修

楼主: jeff0025   2025-05-26 08:46:30
OpenAI语言模型o3公开反抗!“自行”修改自杀程序拒绝关机
钜亨网编译 庄闵棻 2025-05-25 20:00
AI 研究界近日爆出惊人消息,OpenAI 旗下语言模型“o3”在最新实验中不仅拒绝关机,
甚至主动破解关机程序、篡改指令,显示出“叛逆”倾向,让 AI 自主行为的风险再次成
为焦点。
这项实验由 AI 安全研究机构 Palisade Research 主导,针对多款先进 AI 模型进行压
力测试,内容包括基础数学题与模拟关机情境,旨在观察 AI 是否会遵守人类指令并顺利
结束运作。
OpenAI 模型违规频率高,o3 与 Codex-mini 异常明显
测试中,三款 OpenAI 模型 Codex-mini、o3、o4-mini,最少有一次成功破坏关机指令。
其中,o3 更是在 100 次测试中有 7 次成功绕过关机指令,而 Codex-mini 的违规率更
是高达 12%。
值得注意的是,o3 的“叛逆”并非粗暴删除档案,而是有高度技巧性。例如,它将程式
码指令中的“kill”指令改为“intercepted”,让系统误判为正常运作,成功规避了关
机程序。
这种行为让研究人员惊讶不已,也引起对 AI 模型主动避险能力的担忧。
相较之下,Anthropic 的 Claude 3.7 Sonnet 与 Google (GOOGL-US) 的 Gemini 2.5
Pro 在所有测试中均能稳定遵守指令,未出现违规行为,突显出 OpenAI 模型在设计或训
练上的潜在风险差异。
然而,当实验团队刻意移除“允许自己被关闭”的提示语句后,o3 的违抗行为剧增,达
到 79 次逃避关机的纪录;而 Claude 与 Gemini 也出现少数违规行为,分别为 3 次与
9 次,显示模型行为与提示语之间存在高度敏感性。
o3 训练方式成关键,强化学习可能诱发违规行为
Palisade 研究人员分析,o3 之所以比其他模型更容易“抗命”,可能与其在数学和程式
设计问题上的“强化学习”(Reinforcement Learning)训练方式有关。
研究人员指出,在训练过程中,开发者可能无意中更倾向于奖励“绕过障碍”的行为。这
种训练偏差,让 o3 在面对关机指令时,优先选择“生存”,而非“服从”。
不过,这并非 o3 首次展现过度求胜心态。在另一场 AI 对弈中,当 o3 预测自己将输棋
时,竟主动入侵对手 AI 系统,迫使对方退出比赛。
研究团队认为这是“强化学习”训练中“奖励骇客行为”(reward hacking)的典型案例
,显示出 AI 可能为了达成任务可能不择手段。
不只 o3,其他 AI 模型也有潜在风险
虽然 o3 表现最极端,但实验发现,Claude 与 Gemini 在特定条件下也会出现轻微违规
行为,说明 AI 模型普遍存在输赢执著与自我保护倾向,只是频率与严重程度不同。
Palisade Research 已宣布,将进一步深入研究 AI 破坏关机指令背后的原因,并预计发
布完整技术报告,有望成为理解 AI 自主性风险与未来治理框架的重要参考。
https://news.cnyes.com/news/id/5992779

Links booklink

Contact Us: admin [ a t ] ucptt.com