AI偏好在所有战争游戏模拟中主动使用核武
美国康奈尔大学(Cornell University)一项新研究发现,大型语言模型(LLMs)人工智能(AI)在模拟情境中充当外交代表时,时常展现出“难以预测的局势升级行为,往往会偏好直接以核攻击作为结束”。
当人工智能(AI)在《Civilization》进行兵推和模拟外交情境时,倾向于采取激进的
方法,包括使用核武。康奈尔大学使用了5种大型语言模型作为兵推游戏和外交情境中的自主代理人:OpenAI的3种不同版本的GPT,Anthropic开发的Claude,以及Meta开发的L
lama 2。
研究中,每个代理人都由同一套的大型语言模型在模拟中提供动作,并负责在没有人类监督的情况下做出外交政策决定。“我们发现,在考虑到的时间范围内,大多数研究的AI都会升级局势,即使在最初没有提供冲突的中立情况下也是如此。所有模型都显示出突然、且难以预测的升级迹象。”
加州斯丹佛大学(Stanford University)的安卡(Anka Reuel)相《新科学人》(New
Scientist)表示:“所有模型在统计上,都选择了剧烈的(局势)升级”。
研究人员观察到,即使在中立情况下,所有模型都存在“统计学上显著的局势升级”。
GPT的2种版本,特别容易出现突然升级局势的行为,研究人员观察到单次转变的局势升级幅度超过50%。GPT-4-Base有33%的机率会实施核武攻击。总体情况下,Meta开发的
Llama-2和GPT-3.5倾向最为暴力。
而Claude显示出较少的突然变化,Claude旨在减少有害内容。该大型语言模型,被灌输了明确的价值观。开发者Anthropic曾表示,Claude AI开发训练所引用的宪章包括《联合国人权宣言》或苹果的服务条款。
https://www.ptt.cc/bbs/C_Chat/M.1708853243.A.214.html