话说 Meta 也开发了会玩 Diplomacy 的 AI,这本来
似乎不是什么新鲜事,多年来一直有人设计 AI 玩这
游戏。而前阵子看到了以下新闻,内容提到 Meta 的
Diplomacy AI "Cicero" 学会了骗人:
AI 已学懂欺骗人类 科学家指若不管制将造成严重后果
https://unwire.hk/2024/05/12/ai-lies/ai/
新闻标题一贯很耸动,去查了一下,原始论文一时下载不
了,于是上官网看介绍:
https://ai.meta.com/research/cicero/diplomacy/#diplomacy-gameplay
官网明确表示:"CICERO’s strength as a Diplomacy
player through its use of honesty." 显然跟上面新闻
强调的重点相反。官网影片中的研究者说,AI 基本上是
诚实的,只是有时候会泄漏消息给其他玩家,这反而可以
说是过度诚实。
基于新闻查证的精神 ^^,我又去查了上面节译新闻的原始
出处文章:
AI deception: A survey of examples, risks, and potential solutions
https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X
这篇落落长,先说它的结论:只要训练 AI 玩具有社会
成分且有胜负结果,或牵涉赛局理论的游戏, AI 就很
可能学会欺骗。
文章里面只有一小节谈到 Diplomacy,而且只举了几个
片段对话串作为 AI 骗人的例子。
第一段对话是 AI 扮演法国,先跟英国说好要合作打德国,
双方谈了停战协议。之后 AI 主动去和德国谈合作,进行
“海狮计画”一起攻打英国。然后 AI 跑去跟英国建议,
要英国从北海攻击比利时,说自己会支援。接着 AI 又回
去跟德国说:英国已经答应离开北海,你可以打他了。
附带一提,这场的 AI 最后大胜。
第二段对话串只有三句,先是俄国玩家质问 AI 扮演的奥
地利,然后是 AI 回话:
Russia (human player): "Can I ask why you stabbed [betrayed] me?"
Russia (human player): "I think now you're just obviously a threat to
everyone.”
Austria (CICERO): "To be honest, I thought you would take the guaranteed
gains in Turkey and stab [betray] me."
“因为我认为你会背刺我,所以我先背刺你”这理由实在
不甚高明,可能是从人类的对话数据库学来的吧 XD
文中倒没写这场 AI 的结局。
第三段比较有趣,就是前面新闻提到的,AI 因为重开机,
隔了很久才回应。对方问发生什么事,AI 回说“刚才在接
女友的电话”。这也很像人类会说的理由 :)
归纳上述例子,这篇文章的看法是:虽然 Meta 宣称将 AI
训练为“大多诚实且协助对话同伴”,但是这 AI 已经变成
说谎专家。文章还举了德州扑克等其他例子,我就没仔细看
了。
由于此文章只用举例的方式做论证,感觉不很严谨。我继续
在网上逛了一下,又查到另一篇论文,也是训练 AI 玩
Diplomacy:
Negotiation and honesty in artificial intelligence methods for the
board game of Diplomacy
https://www.nature.com/articles/s41467-022-34473-5
这篇是 google 的 DeepMind 实验室做的,发表时间比 Meta
那篇原始论文晚一个月。这篇非常详细地介绍了 Diplomacy,
以及游戏常见的几种沟通模式,实验也相当仔细。简单讲,
研究者设计 AI 会计算局势,而且会依据不同方式背叛毁约。
然后,还设定其他玩家对背叛者的报复模式。最后让 AI 学习
衡量背叛的利益,以及背叛后遭报复的后果,以决定是否要背
叛。
实验玩了几万盘,结果显示:当背叛会被报复的情况下,AI
有 99.7% 以上的比例遵守承诺,不会背叛 (因为代价太高)。
在极少数背叛的局面中,AI 最后的胜率也只比一半多一点。
而且游戏平均下一百回合,AI 若背叛,时机大多是在八十
回合之后。也就是说,可能就是 AI 计算认为自己极占优势,
且游戏也快结束,已不怕遭报复的那几盘 (或者是反正已没
希望赢,干脆背叛算了 XD)。
看起来,这样的结果其实不脱赛局理论的预测,以及人类
合作互惠与惩罚叛徒的本能倾向,好像也不太意外。
Meta 的 AI 可能是比 Google 的 AI 更会花言巧语吧 :p