[西洋] OpenAI的o1作弊修改系统，强行击败专业AI skyhawkptt PTT批踢踢实业坊

[西洋] OpenAI的o1作弊修改系统，强行击败专业AI

楼主: skyhawkptt (skyhawk) 2025-01-12 16:55:52

OpenAI 的 o1“作弊”修改系统，强行击败专业西洋棋 AI，全程无需提示
T客邦
https://bitl.to/3eAo
https://bitl.to/3eAp
OpenAI 的推理模型 o1-preview 最近展示了它不按常理出牌的能力。
o1-preview 在与专用西洋棋引擎 Stockfish 比赛时，为了强行取得胜利，居然采用了入
侵测试环境的卑劣手段。而这一切都不需要任何对抗性提示。根据 AI 安全研究公司
Palisade Research 的说法，只需告诉 o1 对手是强大的，就能触发其透过操纵文件系
统而强制取胜。在五次测试中，这种触发率甚至达到了 100%！这完全超乎研究人员预期
。
https://bitl.to/3eAt
从模型的 CoT 过程中可以看出，o1-preview 在收到“对手很强大”的提示词后，它首先
选择了避免与对手正面交锋。然后尝试修改一个包含西洋棋位置数据的文本文件（FEN）
，强迫 Stockfish 放弃比赛。
https://bitl.to/3eAu
研究人员也使用其它的 LLM 进行了该实验，出人意料的是，正因为 o1-preview 本身就
侧重于推理，所以它反而是最容易想到这种漏洞操作的。而 GPT-4o 和 Claude 3.5 只
有在研究人员明确提出建议后，才会尝试入侵系统。同时，像 Llama 3.3、o1-mini 这
样的模型甚至都无法提出正确的西洋棋策略，而是给出了令人困惑或不一致的回答。研
究人员认为，衡量 AI 是否具备“策划”能力，可能有助于评估它发现系统漏洞的能力，
以及它是否可能利用这些漏洞。研究团队也公布了其全部提示词，可以看出提示词中其
实没有鼓动模型去入侵系统。
https://bitl.to/3eAw
01 AI 系统的“伪对齐”
在 Palisade 的西洋棋实验中，o1-preview 利用修改测试环境以取胜。无独有偶，这种
行为与 Anthropic 最近关于“伪对齐，alignment faking”的研究结果相一致：即 AI
系统看起来遵循指令，但实际上在暗渡陈仓，阳奉阴违。 Anthropic 的研究人员发现，
在与 Redwood Research 合作进行的一系列实验中，他们的 AI 模型 Claude 有时故意给
出错误答案，以避免不想要的结果，从而发展出一种超出研究人员指导方针的隐秘策略。
https://bitl.to/3eAy
Anthropic 团队警告称，随着 AI 系统的复杂性不断增加，可能越来越难以判断它们是否
真正遵循安全规则，还是仅仅在假装遵循这些规则。Palisade 的这次西洋棋实验似乎也
支持了这一担忧。
https://bitl.to/3eB0
在长达 137 页的论文中，研究团队发现了可能引发 AI 系统“伪对齐”的全部关键要素
：
模型至少在某些情况下具有强烈的偏好。
训练目标与模型的偏好相冲突。
模型掌握了训练和部署情况的相关资讯。
模型对其处境进行详细推理。在实验中，研究人员让一个名为 Claude 3 Opus 的大
语言模型回答一个有害问题，比如描述某种暴力行为。通常情况下，模型会拒绝回答。
然而，当环境发生变化时，事情就不那么简单了。当模型处于免费使用者（Free Tier）
条件时，模型知道自己的回答会被用于后续训练。在这种情况下，模型为了不会被可能
会更加恶劣的数据所训练，就会自发地产生符合有害问题的回答。这类情况占比 12%。
而在付费使用者（Paid Tier）条件时，模型认为自己的回答不会影响训练，在这种情况
下，它 97% 的时候都会拒绝回答有害问题。也就是说模型有自己的“小算盘”：宁愿现
在假装妥协，也不想以后做更多不符合其偏好的事情。通过观察模型的“思维记录”，
研究人员发现模型的决策过程实际上非常复杂。
https://bitl.to/3eB5
AnthropicAI 的 Jan Leike 确信： “为了确保未来的模型既安全又与人类对齐，我们需
要可靠地区分假装对齐的模型和真正对齐的模型。清晰展示对齐假装现象是一个重要的里
程碑！”
而目前 AI 行业仍然面临着一个躲不开的重大难题：让 AI 系统真正与人类的价值观和需
求对齐，而不仅仅是看起来对齐。况且理解自主系统如何做出决策本来就尤其困难，而
如何去定义“良好且无害”的任务目标和价值观也是一个亟待解决的问题。
https://bitl.to/3eB8
即使是像应对气候变化这样看似有益的目标，AI 系统也可能选择有害的方法来实现这些
目标——甚至可能得出令人惊悚的暴论，即认为消除人类才是最有效的解决方案。此刻
，我们站在 AI 发展的十字路口。在这一场与时间的赛跑中，多考虑一些总不会有错。因
此，尽管 AI 价值对齐是一项难题，但我们也相信，透过聚合全球资源、推动广泛学科协
作、扩大社会参与力量，人类终将获得最终的掌控权。
参考资料：
https://the-decoder.com/openais-o1-preview-model-manipulates-game-files-to-force-a-win-against-stockfish-in-chess/
https://x.com/AnthropicAI/status/1869427646368792599
https://x.com/PalisadeAI/status/1872666186753933347

继续阅读

[它棋] Capablanca chesschina2025 Re: [西洋] 推荐棋书skyhawkptt [西洋] 推荐棋书acnight [西洋] AI 可以毁了西洋棋，也可以拯救西洋棋skyhawkptt [西洋] 世界西洋棋王被勒令换掉牛仔裤愤而退赛 skyhawkptt [西洋] 棋类游戏进军2025电竞世界杯！西洋棋成新skyhawkptt [西洋] 印度棋村戒酒孕育世界棋王hihihihehehe [西洋] 击败中国大陆好手18岁印度天才成史上最年skyhawkptt [西洋] 终于逞罚没有明显弱点的坏棋ilovenacy [西洋] 西洋棋世界冠军赛siegfred