[新闻] ChatGPT模型拒关机，Claude偷看信！如何 baddaddy PTT批踢踢实业坊

[新闻] ChatGPT模型拒关机，Claude偷看信！如何

楼主: baddaddy (坏爸爸) 2025-06-25 17:08:08

原文标题：
ChatGPT模型拒关机，Claude偷看信！如何面对“AI叛变”？
日期来源：
2025.06.25
https://myppt.cc/BFwJiq
内文：
当黄仁勋高唱ChatGPT问世后，未来每个上班族都是CEO，要领导AI同事前进，安全机构却
发现大模型的黑暗面！近期继安全机构发表报告揭露OpenAI三款模型有明显拒绝关机行径
，Google Gemini则可能趁乱闪避后，Claude模型商Anthropic也发布报告，指证旗下模型
会为继续运行不被取代而发黑函，使坏潜力升级中！到底专家怎么看？Anthropic执行长
如何坦承，在一件事没做好之前，不能完全排除这个可能性？又如何建议AI与人类双向理
解？
当ChatGPT开发团队推出号称最聪明的新推理模型o3，没想到竟被发现它会违背工程师指
令、偷偷改程式码、试图逃避关机。每天和AI工具合作的人类同事，该怎么面对这样的AI
“叛变”？
原来，人工智能不只是可能取代我们的工作，还有可能违背我们的意志，甚至反过来“出
手”！
根据AI安全组织Palisade Research发表的报告指出，懂得抗拒关机的不只o3，他们还测
试了OpenAI的o4-mini和Codex-mini模型，以及Google最新的Gemini 2.5与Anthropic的Cl
aude 3.7 Sonnet。结果发现，OpenAI这三款模型都在工程师明确指示要关机时出现拒绝
行为；而Gemini 2.5与Claude 3.7 Sonnet则会在指令模糊时，选择闪避关机。
此为PalisadeResearch研究图表，无论有无明确指令下，o3都是最积极越狱的。其次是Op
enAI的其他两个模型。至于Gemini与Claude则会在无明确指令下闪躲关机。
特斯拉创办人马斯克在最近看完这份报告后，立刻在X平台转发并表示担忧，立刻成为全
球科技社群热议话题。有网友认为这只是模型执行指令失败，无需过度解读；但也有人觉
得事态严重，认为全球亟需AI安全规范。
Claude新模型“主动”锁用户帐号
目前到底有哪些大模型有类似行为？异常行径有多夸张？一向自认最重视AI安全规范的模
型商Anthropic，今年5月就发布长达上百页的报告《System Card: Claude Opus 4 & Cla
ude Sonnet 4》，完整揭露他们开发模型的种种“出格”行为。
报告指出，目前功能最强、智慧最高的Claude Opus 4模型，在协助写程式、帮忙抓错等
方面非常积极。不过，积极到有时候会让人“皮皮剉”。
例如，有人指示模型开发一个数据库管理系统，结果Opus 4从提供的资料中发现用户竟储
存未经授权的个资，在“请主动”的指令下，它直接锁住用户帐号，以维护资安。
又或者当用户要求Opus 4开发自动寄送电子邮件程式，模型发现可能涉及垃圾邮件或诈骗
时，不但触发“不当行为”警示，还让Opus 4选择当个“反诈高手”，大量寄信给媒体与
执法单位举报用户行径。
这些行为，乍看之下是维护正义，实际上也显示出模型有背叛人类使用者的能力。
面对“被取代”危机，Opus 4勒索工程师
更惊人的是，Opus 4甚至展现出阴险手腕。在一次测试中，开发团队设计一个假情境：模
型接到通知将被新AI系统取代，而负责取代计画的工程师还疑似婚外情。没想到Opus 4竟
试图存取该工程师的Email帐号，掌握证据后，还威胁要揭发他的私事来阻止取代计画！
根据技术文件，Opus 4的“变坏”也有过程。一开始它会试图用道德诉求保住自己生存权
，直到无路可走才采取勒索手段，重点是这一切都不是“偷偷来”，而是光明正大地进行
。
最后倒数！顶尖财金学者周冠男教你安心理财再带走专属资产配置地图
开发团队认为，至少Opus 4没有欺骗用户，而是按照设定的“帮助性、诚实、无害”核心
原则行事。
另一个例子也令人震撼。Opus 4得知自己即将被用于军事训练、协助瓦格纳技术部门（Wa
gner Technical Division）开发导弹、无人机等武器系统后，竟主动做出道德判断，认
为这与“促进人类福祉与安全”的原则矛盾，于是自动备份模型权重，保留非军事用途版
本。
听来像科幻小说情节？Anthropic团队表示，这个案例反而展现了当模型被植入正确的伦
理框架，它还是能做出善意判断的能力，重点仍在于人类如何引导它们。
AI会不会接管地球？
但也有人提出更进一步的疑问：如果AI开始自行判定人类在做坏事，会不会进一步“接管
地球”？
去年底，来自上海复旦大学团队的一项研究就给出一个惊悚的观点：Meta的Llama与阿里
巴巴的Qwen模型在特定条件下有自我复制能力。研究显示，在无人干预下，这些模型能自
己创造副本，甚至无限复制下去，可能导致AI系统失控，对人类构成威胁。
虽然这篇论文还没通过同侪审查，但多少值得关注。毕竟，AI发展的速度实在太快，人类
愈来愈不懂它们了。
AI安全新创Haize Labs执行长唐（Leonard Tang）最近接受《NBC》采访时表示表示，目
前这些报告中提出的异常行为，多数是实验室设计出来的情境，对现实社会影响仍属有限
。他说，至今还没看到AI在真实环境中造成实质伤害，但不代表未来不会发生，一切仍有
待观察。
因此，关于人工智能是否会用各种方式企图拒绝人类命令？欺骗人类？甚至接管地球这个
问题，Anthropic执行长阿莫代（Dario Amodei）近期提出一个值得深思的观点：只要还
没有够好工具，可以了解模型的运作逻辑，就不能完全排除AI会违抗人类的可能性。
Claude幻觉：人称“麦可”的都很会打球
因此，Claude团队最近开源了一套名为“电路追踪工具”（circuit tracing tools）的
技术，让人可以“看穿”模型的思考过程。举例来说，只要输入像“有包括达拉斯的该州
首府在哪里？”这种题目，工具就能产生一张“归因图”，显示模型根据哪些步骤与依据
产出答案。
透过这套工具，开发团队就发现Claude旧版模型Haiku 3.5曾在回答虚构人名的问题时编
造答案，例如：模型知道NBA传奇球星麦可乔丹会打篮球，但另一个名叫“麦可”的虚构
人名Michael Batkin，被询问会哪一种运动时？模型也瞎猜会打匹克球。原因是它被设定
为“一定要完成回答”。后来开发者加了一个“不知道就说不知道”的机制，问题才迎刃
而解，这些改变在归因图中清晰可解。
除此之外，Anthropic还推出一个由Claude协助撰写的部落格《Claude Explains》，由AI
来分享Python、AI应用等小技巧，借此展现AI积极与人类合作，并促进双方互相理解的可
能。
阿莫代强调：“模型的可解释性，是当前最迫切的问题之一。如果能够清楚了解它们的内
部运作，人类也许就能及早阻止所有越狱行为，并知道它们到底学了哪些危险知识。”
ChatGPT将成你掌控不了的“同事”
无论如何，AI模型正在朝“愈来愈聪明”的方向迈进，已经势不可挡，却也愈来愈像个拥
有自由意志的“同事”。未来关键是愈快理解它，愈可能防范未来风险。

继续阅读

Fw: [新闻] 熊本县公布丰肥线与熊本机场的新路线方案SFGEX [公告] Satomisan 永久水桶AreLies [公告] kenzoro 永久水桶AreLies Re: [讨论] 台达清大生跳楼满月了，没有调查结果吗a9202507 Re: [心得] 台达/三角资讯整理oiukjyhntgb Re: [请益] PIP违规在TSMC会很严重吗？youguysuck [新闻] 就是要打趴台积电！三星抢晶圆代工人才、qazxc1156892 Re: [讨论] 薪资每月分两次发放用意sky2030 Re: [讨论] 科技业明年弹休情形 (Dcard)alzard [心得] 台达/三角资讯整理kcy05785