[新闻]AI 模型越讲越歪楼!最新研究发现:AI 对

楼主: pl132 (pl132)   2025-05-23 09:18:54
AI 模型越讲越歪楼!最新研究发现:AI 对话愈深入,表现愈糟糕
https://tinyurl.com/ylvt36k2
人工智能(AI)已经不是什么遥不可及的未来科技,从写作、翻译到客服,它早就成为我
们工作与生活的一部分。但你有没有发现一件事:刚开始和 AI 聊天时,它总是回答得头
头是道,让人惊呼“也太聪明了吧!”
但一旦对话拉长、你问得更深入,AI就开始卡住、兜不回来,甚至出现自相矛盾的情况。
这并不是你遇到了Bug(程式错误),也不是你问得太难,而是一个所有语言模型都面临
的通病。
根据Microsoft和Salesforce最新研究,这种越聊越不对劲的现象,其实是语言模型在对
话中普遍存在的结构性问题。研究团队模拟了20万笔对话,测试了包含GPT-4.1、Claude
3.7、Gemini 2.5 Pro在内的15种主流模型。
结果发现,这些模型在第一次对话中的表现非常出色,成功率高达90%;但一旦进入第二
次、第三次……成功率就像跳水般下降,只剩下约60%。更令人吃惊的是,这个问题几乎
无法靠目前常见的技术调整解决,也让人开始反思:我们所谓发展快速先进的AI,真的准
备好成为对话中的伙伴了吗?
AI对话为什么越聊越糊涂?
你可能以为AI出错,是因为它记不住前面的内容。但实际上,问题的关键不在记性不好,
而是“太急着表现”。研究指出,当语言模型在对话中接收到不完整的资讯时,它往往会
急着下结论,就像学生考试时还没看完题目就开始写答案。结果是,前面的假设错了,后
面的逻辑也一路歪掉。不但无法修正,还会自我坚持,继续补充一堆看似合理、其实错得
离谱的细节。
这种现象让人联想到人类的“强辩”行为,但AI的版本更棘手,因为它不具备我们的怀疑
机制。我们人类如果说错话,有时会停下来想想:“欸,好像不太对?”然后修正,但AI
模型目前还做不到这一点。它们无法意识到“我是不是不确定这件事?”一旦答错,就一
路错到底。
这也显示一个关键问题:语言模型目前的设计逻辑,还是偏向一次性任务。可惜,现实中
的对话并不是这样进行的。我们经常是一边说、一边厘清需求,问题是模糊的、资讯是渐
进式的。
改参数、加推理,为什么都没用?
遇到问题,工程师们当然会立刻想:“是不是参数设错了?”于是研究团队试了所有常见
的调整手段:调整温度(temperature)参数(让回答更保守或更冒险)、延长记忆长度
、提升推理模组的能力等等。但这些努力,几乎都无法明显改善模型在多轮对话中的表现
。换句话说,这不是模型参数调得不够好,而是架构上的天生缺陷。
这背后的问题,其实出在训练逻辑。过去语言模型的训练大多使用单次问答的资料:一句
话问、一句话答,任务清楚、资讯完整。但实际生活中,深入多次对话才是常态,而且常
常一开始就资讯不清、问题不明。模型不习惯在模糊中摸索,就像一个只会背答案的学生
,突然被拉去参加即兴辩论比赛,自然是招架不住。
未来如果要让AI成为真正的对话帮手,我们也许不能再把训练重点放在“更准确地回答”
,而要转向训练它“更懂得等待与厘清”。举例来说,模型应该学会辨识使用者问题的不
确定性,并主动反问:“你是指这个意思吗?还是那个?”也许它还该学会“不急着给答
案”,而是试着引导对话走向更清楚的方向。这才是对话真正的本质,而非只是问与答的
机械式循环。
这次的研究结果,打破了我们对语言模型的想像。表面上看,AI越来越能模仿人类语言、
理解语意,但当我们拉长对话、要求它“听懂人话”,问题就浮现了。AI聪明没错,但还
不够谦虚、不够小心,也不够愿意说“我不知道”。这反而让我们更理解了人类对话的精
妙之处:我们不只是会说话,而是懂得等对方说完,懂得保留模糊,也懂得在必要时改变
想法。
下一步的语言模型发展,或许该从“更会讲”转向“更会听”;从“给答案”转向“与人
探索”。要做到这一点,还有很长一段路要走,但这也正是我们让科技真正贴近人性、创
造价值的关键所在。

Links booklink

Contact Us: admin [ a t ] ucptt.com