楼主:
sxy67230 (charlesgg)
2023-04-29 17:26:33※ 引述《jej》之铭言
: 如题啊
: 现在牌面上的机器人
: 号称可以取代人工
: 但本肥上去聊了一下
: 总觉得机器人回答的不完全对耶
: 但是看那些机器人的官网
: 也没有说机器人回答问题
: 的信度 效度分别是多少?
: 很神奇
: 用统计做出来的东西
: 却没有统计勾稽他
: 有没有版上键盘机器人训练家
: 可以解释一下吗
: 来 宝杰
阿肥外商码农阿肥啦!在下键盘研究员回答一下你的问题,
1. 先说统计检验部分,一般而言在传统研究领域小数据上都会要你做一些传统的统计检验,
例如你加了某个方法以后会更好,你要跟读者证明A优于B,要避免模型有随机性那做了可以
证明你是对的。不过现在大部分NLP训练都是基于巨量数据像GPT-3有45TB的文本,这么大的
数据情况下我们都会假设数据服从中央极限定理符合常态分布,那做假设检验就有点多余。
2. 当前NLG的任务都是基于自监督在透过人工标注来训练一个偏好学习来微调大语言模型,
这种就很难评断哪个评价更好是对的这种问题,统计检验虽然可以告诉我们哪个比较显著,
但是不会告诉你显著方向,依旧需要人类来定义,而人类定义又会回到问题上,我们即使请
了一堆人标答案你怎么知道哪个一定更好?即使是找一百个人好了,一百个人我们透过统计
来找到应该某个选项比较好也不见得就是真实世界的答案,毕竟人类不是上帝。
3. 基本上当前所有的模型发布或发表都会做一些消融实验验证我们确实好一点,像GPT4也有
提供calibration 验证,Anthropic (谷歌合作的AI公司致力于安全性,创始人是OpenAI出来
的)在他们的chatBot研究Paper上还有提供有效性跟无害性分析。
4. 一个有趣的点是当前自监督加上巨量数据下,对于传统的特征筛选越来越不重要,因为够
巨量,全部都当成QA问题似乎越来越没差,不过因为模型太大可能执行速度困难下,让模型
稀疏化不要一次激活全部神经元的研究正夯,像是透过一些小的Linear把他训练成专家筛选
器。
5. 深度学习的可解释性依旧是一个问题,我们到现在还是不明白大语言模型的涌现能力是怎
么出现的,似乎在某些问题上凸显涌现能力但是到某些问题上模型又变成三岁智商,这点还
是回到Yann LeCun 说得我们现在连猫狗大脑都做不出来,但某种程度LLM却又表现出类人能
力,这会是之后蛮硬核的研究议题,若是有人能找到这个圣杯,那足够价值五个图灵奖了。