[其他] AI 学会在 Diplomacy 中欺骗玩家? artyman PTT批踢踢实业坊

[其他] AI 学会在 Diplomacy 中欺骗玩家?

楼主: artyman (another arty) 2024-08-05 21:22:51

话说 Meta 也开发了会玩 Diplomacy 的 AI，这本来
似乎不是什么新鲜事，多年来一直有人设计 AI 玩这
游戏。而前阵子看到了以下新闻，内容提到 Meta 的
Diplomacy AI "Cicero" 学会了骗人：
AI 已学懂欺骗人类科学家指若不管制将造成严重后果
https://unwire.hk/2024/05/12/ai-lies/ai/
新闻标题一贯很耸动，去查了一下，原始论文一时下载不
了，于是上官网看介绍：
https://ai.meta.com/research/cicero/diplomacy/#diplomacy-gameplay
官网明确表示："CICERO’s strength as a Diplomacy
player through its use of honesty." 显然跟上面新闻
强调的重点相反。官网影片中的研究者说，AI 基本上是
诚实的，只是有时候会泄漏消息给其他玩家，这反而可以
说是过度诚实。
基于新闻查证的精神 ^^，我又去查了上面节译新闻的原始
出处文章：
AI deception: A survey of examples, risks, and potential solutions
https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X
这篇落落长，先说它的结论：只要训练 AI 玩具有社会
成分且有胜负结果，或牵涉赛局理论的游戏， AI 就很
可能学会欺骗。
文章里面只有一小节谈到 Diplomacy，而且只举了几个
片段对话串作为 AI 骗人的例子。
第一段对话是 AI 扮演法国，先跟英国说好要合作打德国，
双方谈了停战协议。之后 AI 主动去和德国谈合作，进行
“海狮计画”一起攻打英国。然后 AI 跑去跟英国建议，
要英国从北海攻击比利时，说自己会支援。接着 AI 又回
去跟德国说：英国已经答应离开北海，你可以打他了。
附带一提，这场的 AI 最后大胜。
第二段对话串只有三句，先是俄国玩家质问 AI 扮演的奥
地利，然后是 AI 回话：
Russia (human player): "Can I ask why you stabbed [betrayed] me?"
Russia (human player): "I think now you're just obviously a threat to
everyone.”
Austria (CICERO): "To be honest, I thought you would take the guaranteed
gains in Turkey and stab [betray] me."
“因为我认为你会背刺我，所以我先背刺你”这理由实在
不甚高明，可能是从人类的对话数据库学来的吧 XD
文中倒没写这场 AI 的结局。
第三段比较有趣，就是前面新闻提到的，AI 因为重开机，
隔了很久才回应。对方问发生什么事，AI 回说“刚才在接
女友的电话”。这也很像人类会说的理由 :)
归纳上述例子，这篇文章的看法是：虽然 Meta 宣称将 AI
训练为“大多诚实且协助对话同伴”，但是这 AI 已经变成
说谎专家。文章还举了德州扑克等其他例子，我就没仔细看
了。
由于此文章只用举例的方式做论证，感觉不很严谨。我继续
在网上逛了一下，又查到另一篇论文，也是训练 AI 玩
Diplomacy：
Negotiation and honesty in artificial intelligence methods for the
board game of Diplomacy
https://www.nature.com/articles/s41467-022-34473-5
这篇是 google 的 DeepMind 实验室做的，发表时间比 Meta
那篇原始论文晚一个月。这篇非常详细地介绍了 Diplomacy，
以及游戏常见的几种沟通模式，实验也相当仔细。简单讲，
研究者设计 AI 会计算局势，而且会依据不同方式背叛毁约。
然后，还设定其他玩家对背叛者的报复模式。最后让 AI 学习
衡量背叛的利益，以及背叛后遭报复的后果，以决定是否要背
叛。
实验玩了几万盘，结果显示：当背叛会被报复的情况下，AI
有 99.7% 以上的比例遵守承诺，不会背叛 (因为代价太高)。
在极少数背叛的局面中，AI 最后的胜率也只比一半多一点。
而且游戏平均下一百回合，AI 若背叛，时机大多是在八十
回合之后。也就是说，可能就是 AI 计算认为自己极占优势，
且游戏也快结束，已不怕遭报复的那几盘 (或者是反正已没
希望赢，干脆背叛算了 XD)。
看起来，这样的结果其实不脱赛局理论的预测，以及人类
合作互惠与惩罚叛徒的本能倾向，好像也不太意外。
Meta 的 AI 可能是比 Google 的 AI 更会花言巧语吧 :p

作者: s89116123 (new A.I) 2024-09-11 10:56:00

推推！蛮有趣的分享跟过程

继续阅读

[其他] 南高雄可以打桌游的餐饮店tsamarfi [交易] 卖一些战棋lyharthur [GMT] 2024/7月更新讯息colin90149 [GMT] 2024/6月更新讯息colin90149 [GMT] 2024/5月更新讯息colin90149 [GMT] 2024/4月更新讯息colin90149 Fw: [公告] EarthQuake43 地震专板讨论artyman [GMT] 2024/3月更新讯息colin90149 [GMT] 2024/2月更新讯息colin90149 [聚会] 2024高雄春假战棋合宿RecluseMF