https://arxiv.org/pdf/2503.23674
图灵测试由AI先驱艾伦·图灵于1950年提出:"人类提问者与一位人类和一位机器进行文字
对话,双方都试图说服自己是人类。如果提问者无法辨别出谁是人类,机器就通过测试"
加州大学圣地亚哥分校团队测试四种系统:ELIZA(1960年代的规则型聊天机器人)、
GPT-4o、LLaMa-3.1-405B和GPT-4.5,人类提问者有5分钟时间与AI和真人同时对话。
61%提问者倾向进行闲聊,询问对方日常活动或个资,50%提问者询问对方社交和情感特质
如情绪和幽默感。他们故意说奇怪的话并观察对方反应或突然要求AI忽略先前指令。
结果GPT-4.5被判断为人类的比率高达73%,显著超过真人被识别的机率(27%)。
LLaMa-3.1-405B被判断为人类的比率达56%,与真人不相上下。
作为对照组的GPT-4o和ELIZA则仅有21%和23%的成功率。
这是有史以来首次有AI痛过图灵测试中取得成功!!!
研究在两个独立人群(大学生和Prolific用户)进行测试,结果在统计上均显著,证明这
不是偶然现象。
实验采用标准的三方图灵测试而非简化版本,每个数据点是AI和人类的直接比较,这使得
结果更具说服力。