Re: [讨论] OpenAI GPT o1模型

楼主: sxy67230 (charlesgg)   2024-09-19 08:59:58
阿肥外商码农阿肥啦!
目前技术太多都说得太云里雾里,但是截至目前为止针对o1其实OpenAI透露出来的技术细
节都不如过往得多,像之前GPT-4跟GPT-3.5过往还有完整的文件跟引用可以窥探,所以就
不做过份的臆测了。
以目前的一些文件上有提到的可以确定这次o1使用了CoT这绝对是一个Agent没错(跟过往
的单一模型不一样),所以Response Time也会比过往再调用GPT-4o还要久。所谓的CoT本
质上就是一系列分解步骤,让模型先分解问题再一步一步到最后结果,目前很多研究都发
现针对CoT再进行微调是有用的( https://arxiv.org/abs/2305.14045 ),所以这种对问

拆解迭代算是一种拉高对模型能力上限的方法。
然后目前RL for LLM有很多新的方法,像KTO这类方法将模型去比较两两对话的问题转换
成一个BSO(二元讯号优化)的问题,研究就发现到相比传统的RLHF甚至DPO,KTO的效果能
起到很好的Regularization(正规化)作用,对比DPO有时候还会过拟和、难以收束优化
不易训练等问题,KTO可以让收集数据更简单(只要收集正负样本)而且效果也不差。
另外就是GPT-2 guidance 的方法也算是这几年比较重要的研究,当前包含谷歌 Deepmind
也发现通过不同种类的LLM不论大小其实也都有对主模型起到类蒸馏的效果,结果也是会
比你单做SFT或RLFH还要好,不过如果是同一个模型重复迭代就有很高的机会发生Model C
ollapse 的问题,这可以从统计学上做很好的解释,详细有兴趣的就自己去看Paper。
以当前来说,我不太认为o1对业界有掀起很高的技术壁垒,反而从这次OpenAI一反常态的
保守有可能推测仅是对现有技术的组合拳。这有可能显示单一LLM模型这样训练下逼近上
限的事实(每家模型大厂可能最后表现都不会差异到哪里去)。
以上

Links booklink

Contact Us: admin [ a t ] ucptt.com