Re: [讨论] OpenAI GPT o1模型 sxy67230 PTT批踢踢实业坊

Re: [讨论] OpenAI GPT o1模型

楼主: sxy67230 (charlesgg) 2024-09-19 08:59:58

阿肥外商码农阿肥啦！
目前技术太多都说得太云里雾里，但是截至目前为止针对o1其实OpenAI透露出来的技术细
节都不如过往得多，像之前GPT-4跟GPT-3.5过往还有完整的文件跟引用可以窥探，所以就
不做过份的臆测了。
以目前的一些文件上有提到的可以确定这次o1使用了CoT这绝对是一个Agent没错（跟过往
的单一模型不一样），所以Response Time也会比过往再调用GPT-4o还要久。所谓的CoT本
质上就是一系列分解步骤，让模型先分解问题再一步一步到最后结果，目前很多研究都发
现针对CoT再进行微调是有用的（ https://arxiv.org/abs/2305.14045 )，所以这种对问
题
拆解迭代算是一种拉高对模型能力上限的方法。
然后目前RL for LLM有很多新的方法，像KTO这类方法将模型去比较两两对话的问题转换
成一个BSO(二元讯号优化）的问题，研究就发现到相比传统的RLHF甚至DPO，KTO的效果能
起到很好的Regularization（正规化）作用，对比DPO有时候还会过拟和、难以收束优化
不易训练等问题，KTO可以让收集数据更简单（只要收集正负样本）而且效果也不差。
另外就是GPT-2 guidance 的方法也算是这几年比较重要的研究，当前包含谷歌 Deepmind
也发现通过不同种类的LLM不论大小其实也都有对主模型起到类蒸馏的效果，结果也是会
比你单做SFT或RLFH还要好，不过如果是同一个模型重复迭代就有很高的机会发生Model C
ollapse 的问题，这可以从统计学上做很好的解释，详细有兴趣的就自己去看Paper。
以当前来说，我不太认为o1对业界有掀起很高的技术壁垒，反而从这次OpenAI一反常态的
保守有可能推测仅是对现有技术的组合拳。这有可能显示单一LLM模型这样训练下逼近上
限的事实（每家模型大厂可能最后表现都不会差异到哪里去）。
以上

继续阅读

[请益] 工作请益p80414 [新闻] 中华电信2025年基层人员征才明开跑月薪4qazxc1156892 [新闻] 台塑高管飞上海遭盘查被边控17天无法回createlight [新闻] 台积外派生力军拼量产也拼做人hvariables [新闻] 大陆制DUV生产65奈米芯片硬扯8奈米遭中jackliao1990 [新闻]美分析：台湾从代工之岛变经济奇蹟，中小pl132 [新闻] 台积电美国厂首家客户传是苹果将分担高Angels5566 [请益] 南科EMWE相关资讯nimab [请益] Offer请益suan161 Re: [讨论] OpenAI GPT o1模型nckuff