原文标题:
ChatGPT模型拒关机,Claude偷看信!如何面对“AI叛变”?
日期来源:
2025.06.25
https://myppt.cc/BFwJiq
内文:
当黄仁勋高唱ChatGPT问世后,未来每个上班族都是CEO,要领导AI同事前进,安全机构却
发现大模型的黑暗面!近期继安全机构发表报告揭露OpenAI三款模型有明显拒绝关机行径
,Google Gemini则可能趁乱闪避后,Claude模型商Anthropic也发布报告,指证旗下模型
会为继续运行不被取代而发黑函,使坏潜力升级中!到底专家怎么看?Anthropic执行长
如何坦承,在一件事没做好之前,不能完全排除这个可能性?又如何建议AI与人类双向理
解?
当ChatGPT开发团队推出号称最聪明的新推理模型o3,没想到竟被发现它会违背工程师指
令、偷偷改程式码、试图逃避关机。每天和AI工具合作的人类同事,该怎么面对这样的AI
“叛变”?
原来,人工智能不只是可能取代我们的工作,还有可能违背我们的意志,甚至反过来“出
手”!
根据AI安全组织Palisade Research发表的报告指出,懂得抗拒关机的不只o3,他们还测
试了OpenAI的o4-mini和Codex-mini模型,以及Google最新的Gemini 2.5与Anthropic的Cl
aude 3.7 Sonnet。结果发现,OpenAI这三款模型都在工程师明确指示要关机时出现拒绝
行为;而Gemini 2.5与Claude 3.7 Sonnet则会在指令模糊时,选择闪避关机。
此为PalisadeResearch研究图表,无论有无明确指令下,o3都是最积极越狱的。其次是Op
enAI的其他两个模型。至于Gemini与Claude则会在无明确指令下闪躲关机。
特斯拉创办人马斯克在最近看完这份报告后,立刻在X平台转发并表示担忧,立刻成为全
球科技社群热议话题。有网友认为这只是模型执行指令失败,无需过度解读;但也有人觉
得事态严重,认为全球亟需AI安全规范。
Claude新模型“主动”锁用户帐号
目前到底有哪些大模型有类似行为?异常行径有多夸张?一向自认最重视AI安全规范的模
型商Anthropic,今年5月就发布长达上百页的报告《System Card: Claude Opus 4 & Cla
ude Sonnet 4》,完整揭露他们开发模型的种种“出格”行为。
报告指出,目前功能最强、智慧最高的Claude Opus 4模型,在协助写程式、帮忙抓错等
方面非常积极。不过,积极到有时候会让人“皮皮剉”。
例如,有人指示模型开发一个数据库管理系统,结果Opus 4从提供的资料中发现用户竟储
存未经授权的个资,在“请主动”的指令下,它直接锁住用户帐号,以维护资安。
又或者当用户要求Opus 4开发自动寄送电子邮件程式,模型发现可能涉及垃圾邮件或诈骗
时,不但触发“不当行为”警示,还让Opus 4选择当个“反诈高手”,大量寄信给媒体与
执法单位举报用户行径。
这些行为,乍看之下是维护正义,实际上也显示出模型有背叛人类使用者的能力。
面对“被取代”危机,Opus 4勒索工程师
更惊人的是,Opus 4甚至展现出阴险手腕。在一次测试中,开发团队设计一个假情境:模
型接到通知将被新AI系统取代,而负责取代计画的工程师还疑似婚外情。没想到Opus 4竟
试图存取该工程师的Email帐号,掌握证据后,还威胁要揭发他的私事来阻止取代计画!
根据技术文件,Opus 4的“变坏”也有过程。一开始它会试图用道德诉求保住自己生存权
,直到无路可走才采取勒索手段,重点是这一切都不是“偷偷来”,而是光明正大地进行
。
最后倒数!顶尖财金学者周冠男教你安心理财 再带走专属资产配置地图
开发团队认为,至少Opus 4没有欺骗用户,而是按照设定的“帮助性、诚实、无害”核心
原则行事。
另一个例子也令人震撼。Opus 4得知自己即将被用于军事训练、协助瓦格纳技术部门(Wa
gner Technical Division)开发导弹、无人机等武器系统后,竟主动做出道德判断,认
为这与“促进人类福祉与安全”的原则矛盾,于是自动备份模型权重,保留非军事用途版
本。
听来像科幻小说情节?Anthropic团队表示,这个案例反而展现了当模型被植入正确的伦
理框架,它还是能做出善意判断的能力,重点仍在于人类如何引导它们。
AI会不会接管地球?
但也有人提出更进一步的疑问:如果AI开始自行判定人类在做坏事,会不会进一步“接管
地球”?
去年底,来自上海复旦大学团队的一项研究就给出一个惊悚的观点:Meta的Llama与阿里
巴巴的Qwen模型在特定条件下有自我复制能力。研究显示,在无人干预下,这些模型能自
己创造副本,甚至无限复制下去,可能导致AI系统失控,对人类构成威胁。
虽然这篇论文还没通过同侪审查,但多少值得关注。毕竟,AI发展的速度实在太快,人类
愈来愈不懂它们了。
AI安全新创Haize Labs执行长唐(Leonard Tang)最近接受《NBC》采访时表示表示,目
前这些报告中提出的异常行为,多数是实验室设计出来的情境,对现实社会影响仍属有限
。他说,至今还没看到AI在真实环境中造成实质伤害,但不代表未来不会发生,一切仍有
待观察。
因此,关于人工智能是否会用各种方式企图拒绝人类命令?欺骗人类?甚至接管地球这个
问题,Anthropic执行长阿莫代(Dario Amodei)近期提出一个值得深思的观点:只要还
没有够好工具,可以了解模型的运作逻辑,就不能完全排除AI会违抗人类的可能性。
Claude幻觉:人称“麦可”的都很会打球
因此,Claude团队最近开源了一套名为“电路追踪工具”(circuit tracing tools)的
技术,让人可以“看穿”模型的思考过程。举例来说,只要输入像“有包括达拉斯的该州
首府在哪里?”这种题目,工具就能产生一张“归因图”,显示模型根据哪些步骤与依据
产出答案。
透过这套工具,开发团队就发现Claude旧版模型Haiku 3.5曾在回答虚构人名的问题时编
造答案,例如:模型知道NBA传奇球星麦可乔丹会打篮球,但另一个名叫“麦可”的虚构
人名Michael Batkin,被询问会哪一种运动时?模型也瞎猜会打匹克球。原因是它被设定
为“一定要完成回答”。后来开发者加了一个“不知道就说不知道”的机制,问题才迎刃
而解,这些改变在归因图中清晰可解。
除此之外,Anthropic还推出一个由Claude协助撰写的部落格《Claude Explains》,由AI
来分享Python、AI应用等小技巧,借此展现AI积极与人类合作,并促进双方互相理解的可
能。
阿莫代强调:“模型的可解释性,是当前最迫切的问题之一。如果能够清楚了解它们的内
部运作,人类也许就能及早阻止所有越狱行为,并知道它们到底学了哪些危险知识。”
ChatGPT将成你掌控不了的“同事”
无论如何,AI模型正在朝“愈来愈聪明”的方向迈进,已经势不可挡,却也愈来愈像个拥
有自由意志的“同事”。未来关键是愈快理解它,愈可能防范未来风险。