[新闻] ChatGPT攻破图灵测试，是时候找个新方法 YummyMcGee PTT批踢踢实业坊

[新闻] ChatGPT攻破图灵测试，是时候找个新方法

楼主: YummyMcGee (NBAæˆ‘æœ€è°æ˜Ž) 2023-08-01 13:46:32

1.媒体来源:
Techbang

2.记者署名:
bigdatadigest

3.完整新闻标题:
ChatGPT攻破图灵测试，是时候找个新方法评估AI技术了

4.完整新闻内文:
7 月 25 日，《Nature》在一篇文章中称，ChatGPT 已经攻破了图灵测试，是时候要启用
其他新的方法来评估人工智能技术了。

世界上最强的人工智能（AI）系统能够通过严格的考试、写出令人信服的论文、顺畅参与
聊天，甚至很多人已经无法分辨 AI 与人在语言表达上有何分别。还有什么是它们做不到
的吗？当然有，而且是些非常简单的问题。

萤幕上排列著一系列色彩鲜艳的图形，面对这类视觉逻辑测试，大多数人都能快速找出答
案。但作为聊天机器人 ChatGPT 和搜寻引擎 Bing 背后的技术之光、当前 AI 的最高杰
作，GPT-4 却明显力不从心。今年 5 月的一项研究显示，GPT-4 在其中一类模式测试中
的正确率只有三分之一，而在另一类测试中正确率更是可怜的 3%。

逻辑谜题背后的研究团队，希望测试能给 AI 系统提供更好的基准，帮助解决关于
GPT-4 等大语言模型的固有短板。总结来讲：在语言类测试中，大语言模型轻易就完成了
曾经被视为具有里程碑意义的智慧壮举；但在视觉逻辑测试中，它们的表现则相当孱弱、
存在明显的盲点，无法根据抽象概念做出推理。

新墨西哥州圣达菲研究所的电脑科学家 Melanie Mitchell 表示，“AI 领域的从业者们
正努力解决对大语言模型系统的评估难题。”为此，她的团队整理出了这套逻辑问题集
。

过去两、三年里，大语言模型已经在跨多工能力上全面碾压以往的 AI 系统。它们的工作
原理并不复杂：根据训练时接触过的数十亿线上句子，总结出各单词之间的统计相关性，
而后面对给定的输入文本生成合理的下一单词。对于基于大语言模型构建的聊天机器人，
则额外再添加一个元素：由人类训练师提供广泛回馈，因此微调机器人的回应方式。

值得注意的是，在这类海量人类语言库上训练而成的、类似于自动补全性质的算法，成
功表现出了广泛的问题解决能力。虽然原有 AI 系统也许在特定某项任务上能够击败大语
言模型，但前者必须接受与特定问题相关的数量训练，且这种能力无法快速从一项任务转
移至其他任务。

哈佛大学认知科学家 Tomer Ullman 表示，从广义上讲，这两大阵营的研究人员对于大语
言模型的底层实现原理抱有完全相反的观点。有些人将算法的成就归结于真正的推理或
理解能力，但其他人（包括 Ullman 本人和前文中的 Mitchell 等研究人员）则仍持谨慎
态度。

Ullamn 认为，“这场辩论的双方都才华横溢、水准很高。”产生分歧的根本原因，在于
缺乏确凿的证据来支持其各自观点。“毕竟还没有盖革计数器那样稳定可靠的智慧检测器
，能明确给出有智慧或者无智能的答案。”

讨论双方的研究人员表示，依靠逻辑问题等测试提示人类与 AI 系统间的能力差异，应该
是向正确方向迈出的重要一步。纽约大学认知计算科学家 Brenden Lake 表示，此类基准
测试还有助于揭示当今机器学习系统所缺失的能力，同时厘清人类智慧到底由哪些要素组
成。

另外，这种对大语言模型及基准能力研究的测试，还具有其他现实意义。

Mitchell 指出，如果想把大语言模型应用到医学、法律等现实场景当中，首先必须明确
其能力边界在哪里。“我们得搞清楚它能做什么、做不了什么，之后才能判断如何安全加
以运用。”

图灵测试已经过时了吗？
在机器智慧测试领域，最著名的方案一直是图灵测试。该测试由英国数学家兼电脑先驱艾
伦· 图灵于 1950 年提出，当时的电脑尚处于起步阶段。

图灵提出了一种所谓“模仿游戏”的评估方法，在该场景中，人类裁判分别与隐藏在萤幕
之后的电脑和人类进行简短的文本对话，看其能否据此准确辨识出机器和人。图灵认为，
这应该能回答“机器有没有思考能力”的问题。

Mitchell 指出，图灵并没有详细说明该场景的大量细节，因此缺乏确切规则可供遵循。
来自谷歌的软件工程师 François Chollet 认为，“图灵测试并不是能在机器上实际运
行的具体测试——而更多只是种思想实验。”

但这种用语言来检测机器是否具备思考能力的观点，已经在技术领域根深蒂固。几十年来
，商人兼慈善家 Hugh Loebner 长期资助一年一度的图灵测试活动，也就是“Loebner 奖
”。但电脑科学家 Rob Wortham 表示，这项活动在 2019 年之后就停止了，因为随着
Loebner 本人过世、活动经费也无以为继。Wortham 是英国人工智能与行为模拟研究学会
的联席主任，该学会自 2014 年开始就代表 Loebner 主办这场竞赛。他解释道，大语言
模型现在基本具备了骗过人类的能力，所以 Loebner 奖在大语言模型全面起飞前夕被迫
停办颇有种黑色幽默的意味。

其他研究人员也认为，GPT-4 等大语言模型已经基本具备了通过图灵测试的能力。至少在
简短的对话中，多数人恐怕很难分辨谁是人、谁是大模型。

今年 5 月，以色列特拉维夫 AI21 实验室的研究人员报告称，有超过 150 万人参与过基
于图灵测试的线上游戏。使用者将参与到两分钟的聊天当中，面对的要嘛是另一位元使用
者、要嘛是根据研究人员提示伪装成真人的大语言模型。玩家正确辨识出机器人的机率只
有 60%，已经跟完全乱猜差不多了 3。

但比较熟悉大语言模型的研究者还是能从种种细节中分辨出聊天机器人。

Chollet 指出，他发现只要利用系统的已知弱点，就能轻松检测出谁是大语言模型。“如
果让我自己接受测试，判断到底是不是在跟大语言模型聊天，那我绝对能得出正确答案。
”

而其中的关键，就是让大语言模型走出自己的舒适区。他的诀窍就是向大语言模型提出与
常见训练场景不同的差异化场景。在多数情况下，大语言模型都是在根据训练资料输出可
能性最高的单词，而并非真的按照新场景给出正确答案。

而且，Chollet 等人对于这种基于欺骗性能的测试方法持怀疑态度。“这明显就是为了欺
骗人类裁判而存在”，这样的测试只会鼓励开发者向 AI 灌输更多伪装技巧，并不能激发
出更多有用或者有趣的功能。

基准测试也不可靠
研究人员经常会用评估特定能力（例如语言能力、常识推理和数学能力）的基准测试对
AI 系统做出评估，各技术团队也越来越多采用那些专为人类设计的学术和专业考试。

今年 3 月 GPT-4 刚刚发表时，来自加州三藩市的 OpenAI 公司就在一系列专为机器设计
的基准测试上评估了新模型的性能，内容包括阅读理解、数学和编码。据 OpenAI 报告，
GPT-4 在大多数测试中表现出色 4。他们还为 GPT-4 设置了约 30 项考试，包括：面向
美国高中生的各科考试，即先修课程（Advanced Placement）；评估美国医生临床知识的
考试；以及美国研究所选拔过程中使用的标准测试（GRE）。在统一律师考试（美国有多
个州在律师资格考试中包含此项考试）中，GPT-4 的得分成功跻身前 10%。

AI 系统性能——结果摘录
测试 GPT-4 GPT-3.5 经过专门训?
统一律师资格考试 298/400（排名前10％） 213／400（排名后10％）无
医学知识自我评估计画 75％ 53％无
研究所入学考试 163／170（排名约前20％）147／170（排名约前25％）无
HellaSwag：常识推理
（专为机器设计） 95.3％ 85.5％ 85.6％
DROP：阅读理解基准
（专为机器设计） 80.9％ 64.1％ 88.4％
GSM-8K：8000道小学
数学应用题数据集
（专为机器设计） 92％ 57.1％ 87.3％
▲资料来源: OpenAI/ 参考文献 4。这里的排名百分位，为达到该分数的人类考生在全
体受试者中的所在位置。

Mitchell 承认，“不少语言模型在这些基准测试中都表现良好。但多数情况下，这并不
足以证明它们在一般能力上超越了人类，而是基准本身存在局限。”研究人员提出了有力
的质疑，即因为模型接受了大量文本素材的训练，所以很可能已经在训练资料中见过类似
的问题。这种情况下得出的基准测试结论被称为“污染”，显然不足以采信。

OpenAI 公司表示，他们透过在问题和训练资料中查找相似字串的方式查验过这一点。在
删除相似字串之前和之后对大语言模型做测试，其性能几乎没有变化。这表明极高的得分
跟污染无关，但仍有部分研究人员质疑测试是否足够严格。

Sam Bowman 是纽约大学的语言技术科学家，同时也在三藩市 AI 公司 Anthropic 工作。
他警告称，千万不要简单把 GPT-4 的考试成绩视为“见过类似问题”的结果，进而否定
GPT-4 的能力。在他看来，“污染的说法确实让情况变得有点复杂，但我认为这并没有真
正影响大局。”

研究人员还指出，大语言模型拿下考试高分的能力本身也比较脆弱，恐怕无法被转化成在
现实世界中做出正确判断的能力。Mitchell 认为，只要稍微调整一下考试题目，就有可
能导致大模型无法通过。例如，她从 ChatGPT 通过的工商管理硕士考试中选出一个问题
并稍加改动，人类可以轻松根据变化调整答案，但 ChatGPT 却惨遭失败。

在解读基准测试含义时，还有另一个更深层次的问题。对人类来说，在这些考试里拿下高
分一般都代表其具备较强的智力水准——其实智力水准本身也是个模糊概念，主要反映在
一系列任务中表现出的能适应不同环境的能力。换言之，在考试中拿高分证明此人拥有较
好的认知能力，而且出色掌握了某些抽象概念。但对大语言模型来说，情况则并非如此。
Mitchell 强调，大模型的判断方式跟人类非常不同，“在多数情况下，AI 系统并不是在
以人类熟悉的方式做推理。”

这可能是因为大语言模型只能从语言当中学习经验；由于缺少与现实世界连接的通道，它
们无法像人那样体验语言跟物体、属性和情感之间的联系。

Lake 指出，“很明显，它们理解单词的方式跟人类不一样。”在他看来，目前的证据表
明大语言模型“可以在不真正理解自己在说什么的情况下，非常流利地使用语言。”

另一方面，大语言模型也表现出一些人类所不具备的能力，例如理解人类写下的几乎每个
单词之间的联系。Mitchell 表示，这可能代表模型是在依靠语言或者其他指标的某些特
征来解决问题，而用不着掌握更广泛的推理能力。

OpenAI 公司研究员 Nick Ryder 也认同这一判断，表示 AI 在单一测试中的性能表现并
不足以像证明人类受试者那样证明其普遍能力。“我觉得大家不该把人类得分跟大语言模
型的得分做直接比较”，OpenAI 公布的得分“并不是在描述大语言模型具备类人能力或
者类人推理水准，而单纯是展示这些模型在执行这些任务时的表现。”

在传统机器基准测试和人类专业考试之外，研究人员还对大语言模型做出更广泛的探讨。
今年 3 月，微软研究院的 Sé bastien Bubeck 及其同事就放出了题为《通用人工智能的
火花：GPT-4 早期实验》的预发表版本 5，在行业内引起热议。他们使用 GPT-4 的早期
版本记录下一系列令人惊讶的功能，而且其中很多功能与语言并没有直接或明确的联系。
其中一个值得注意的亮点，就是它能通过用于评估心理学理论的测试。心理学理论是人类
的一种核心能力，用于预测和推理他人的心理状态。他们在文章中写道，“鉴于 GPT-4
在功能上的广度和深度，我们有理由相信它已经代表着通用人工智能（AGI）系统的早期
（但尚不完美）版本。”

但 Bubeck 本人随后也做了澄清，强调“GPT-4 一定不会像人那样思考，而且对于展现出
的任何功能，它都有着自己独特的、与人类不同的实现方式。”

Mitchell 认为，尽管这份报告表述得相当激进，但却并没有对大语言模型的能力做出系
统性探讨。“这更像种人类学研究。”Ullman 也表示要想证明机器能掌握心理学理论，
至少要给出与之对应的潜在认知过程证据，而不能简单依据机器输出了跟人类相同的答案
就粗暴断言。

AI 研究人员们认为，要想摸清大语言模型的优势和短板，还需要展开更广泛、更严格的
审查。而色彩逻辑问题可能正是其中的重要一环。

新鲜谜题
2019 年，就在大语言模型全面爆发之前，Chollet 在网上发表了专门为 AI 系统整理的
一套新型逻辑测试集，名为抽象与推理语料库（ARC）。解答者将面对一段视觉演示，其
中几个正方形网格会转变成另外一种模式，再由其指示下一网格该如何变化来证明自己已
经理解了变化规则。Chollet 表示，“这测试的是我们适应以往从未见过的事物的能力”
，他认为这种探寻规律的能力才是智慧的本质。

Lake 认为，ARC 把握住了“人类智慧的标志”：从日常知识中进行抽象，并将其应用于
以往从未见过的问题。

Chollet 在 2020 年组织了一场 ARC 机器人竞赛，当时大语言模型还没有获得广泛关注
。最终获胜的 AI 系统经过了专门训练，善于解决 ARC 这类任务。但跟大语言模型不同
，它并不具备通用功能，而且也只答对了 21% 的问题。相比之下，人类正确解决 ARC 问
题的比例为 80%7。多个研究团队目前正使用 ARC 来测试大语言模型的能力，也没有任何
一种能接近人类的表现。

Mitchell 和她的同事在 ARC 的启发下又开发出一套新的谜题（称为 ConceptARC），主
要区别有两点。ConceptARC 的难度更低：

Mitchell 团队希望让基准测试反映出机器功能的进步，哪怕只是一点点改进。第二是，
该团队选择了特定概念来做测试，之后围绕每个概念创建一系列与主题相关的谜题变体
。

例如，为了测试相同性这个概念，一道题要求解题者将具有相同形状的物件保持不动，另
一道题则要求将同形状物件沿一条轴对齐。这样做的目的，是减少 AI 系统在未掌握概念
的情况下通过测试的几率。

性能不佳代表着什么？
研究人员将 ConceptARC 任务发表给了 GPT-4 和招募来的 400 名受试人员。人类在所有
概念组上的平均得分为 91%（得分最高的一组为 97%）；GPT-4 得分最高的一组为 33%，
在其余概念组中的得分均不超过 30%。

Mitchell 指出，“我们证明了机器仍然达不到人类的智力水准。但令人惊讶的是，尽管
从未接受过相关问题的训练，但它还是能够解决其中一些问题。”

该团队还测试了在 Chollet 竞赛中胜出的机器人，这些机器人并不属于大语言模型那种
通用能力系统，而是专门针对 ARC 等视觉问题训练而成。总体而言，它们的性能比
GPT-4 更好，但还是不如人类，其中最佳概念组得分为 77%，但在大多数概念组中得分低
于 60%1。

不过 Bowman 认为，GPT-4 通不过 ConceptARC 的训练，并不证明它缺乏潜在的抽象推理
能力。在他看来，ConceptARC 与 GPT-4 之间存在偏差，毕竟这是一种视觉测试。“即使
这些模型真的很擅长这种概念推理，也不大可能在初次参与此类测试时就拿下高分。”

测试方式的限制，也可能是 GPT-4 表现不佳的影响因素。大语言模型的公开版本只能接
受文本输入，因此研究人员提交了用于描述图像的数位阵列。

（例如，空白图元可能用 0 表示，彩色广场则可能用相应的数字表示。）相比之下，人
类受试者能够直接看到图像。Mitchell 也承认，“我们是在拿纯语言系统跟人类做比较
，而人类拥有高度发达的视觉系统，所以这样的比较恐怕并不完全公平。”

OpenAI 已经建立了 GPT-4 的“多模态”版本，能够直接接受图像输入。

Mitchell 团队正在等待该技术的正式公开，这样就能再做一轮 ConceptARC。但她认为多
模态 GPT-4 的成绩也好不了多少，“我觉得这些系统仍然不具备能与人类比肩的抽象概
念和推理能力。”

麻省理工学院的计算认知科学家 Sam Acquaviva 也赞同这一判断，“否则就太让人震惊
了。”他还提到，另一组研究人员已经在 1D-ARC 基准上测试了 GPT-4，且模式限制为单
行而非网格 8。这应该能消除一定的不公平问题，但 Acquaviva 看到虽然 GPT-4 的性能
有所提高，但同样不足以证明大语言模型具备可靠的规则理解和推理能力。

推理论证
Bowman 还提到其他一些实验，综合结果来看，大语言模型至少已经掌握了推理抽象概念
的基本能力。在其中一个案例中，哈佛大学电脑科学家 Kenneth Li 和他的同事采用了黑
白棋的数位版本，由对弈双方将黑色和白色棋子放进 8 x 8 的网格当中。他们希望借此
评估大语言模型到底是依赖记住的语言统计关系来生成文本，还是真的能像人类一样为现
象构建内部表征。

在向大语言模型提交人类选手的操作训练集之后，AI 很快就掌握了为下一步棋选择正确
策略的能力。研究人员认为，这表明大语言模型甚至能够理解棋盘上的态势，并结合当前
特征给出棋步建议，这明显突破了文本形式的束缚 9。

Bowman 承认，大语言模型的推理能力总体上可谓是“参差不齐”，而且达不到人类推理
的高度。但他认为这种推理能力确实存在，而且似乎会随着模型规模的增长而提升。也就
是说，未来的大语言模型会表现得越来越好。

“这些系统没有我们期待中那么可靠或者通用，而且在某些特定的抽象推理方面完全搞不
清状况。但我认为，它们的基本推理能力确实客观存在。”

Bowman 和 Mitchell 等研究人员还一致认为，如何更好地测试大语言模型抽象推理及其
他智慧指标的方法，仍然是个悬而未决的问题。斯坦福大学认知科学家 Michael Frank
认为不可能存在单一某种包罗万象的测试能够全面取代图灵测试。相反，他认为研究人员
需要设计大量测试来量化各类系统的优势和短板。“这些智慧体都很棒，只是在诸多方面
仍有缺陷，所以最重要的就是对此开展系统性探索。”

Wortham 则向刚刚接触 AI 系统的朋友们提出建议，希望尽量远离那种对拟人化的执念。
“我们总想把任何表现出智慧的东西理解成人，这真的很没必要。”

“这甚至可说是种诅咒，意味着除了人类自己，我们无法想像其他表现出明确目标导向的
智慧形式。我们总是一厢情愿地认为，它这么做的深层思维方式跟自己一样。”

资料来源：

ChatGPT broke the Turing test — the race is on for new ways to assess AI
The ConceptARC Benchmark: Evaluating Understanding and Generalization in the
ARC Domain
Turing, A. M. Mind LIX, 433–460 (1950).
Article Google Scholar
Human or Not? A Gamified Approach to the Turing Test
GPT-4 Technical Report
Sparks of Artificial General Intelligence: Early experiments with GPT-4
On the Measure of Intelligence
Fast and flexible: Human program induction in abstract reasoning tasks
LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and the
Importance of Object-based Representations
Emergent World Representations: Exploring a Sequence Model Trained on a
Synthetic Task

5.完整新闻连结 (或短网址)不可用YAHOO、LINE、MSN等转载媒体:
https://www.techbang.com/posts/108428-chatgpt-turing-test-ai#top

6.备注:
看到这消息让我惊呆了
虽然说迟早会有这一天
但没想到这一天来的这么快

继续阅读

Re: [问卦] 要给劳工多少假劳工才不会期待台风假VVizZ [新闻] 竹市教育处长童凤娇无预警离职 7个月闪人ipad6255 Re: [爆卦] 美国国家实验室理论证明LK99结构满足常温常压超导butten986 Re: [问卦] 中老年人为啥喜欢吃肥肉？riptheworld [问卦] 要做超导外送师该怎么入门j32072 Re: [问卦] 要给劳工多少假劳工才不会期待台风假WeiU [问卦] 没人发现台湾现在新婚夫妻生活很可怕吗！nobody0303 Re: [问卦] 到底凭什么高雄可以拿那么多钱啊words2012 [问卦] 超导体etf 是不是已经准备就绪了cj4385283 [问卦] 要给劳工多少假劳工才不会期待台风假sulanpa