Re: [新闻] OpenAI:已掌握DeepSeek盗用模型证据

楼主: zzahoward (Cheshire Cat)   2025-01-30 07:26:03
以下部分资讯来自于Reddit anitakirkovska文章的翻译
LDPC哥哥讲到一个重点
Reinforcement Learning =/= Reinforcement Learning from Human Feedback
这也是R1为什么爆红的原因

GPT-4最强的地方是他有了某方面的"思考炼"
(chain-of-thought) 也就是能做出更灵活更准确的推理
但OpenAI是怎么做出来的并没有公开,而Deepseek R1是直接公布出来
图里面的缩写全名如下
Cold start data: 最低限度标记的资料集合,让模型更好理解任务
RL: Reinforcement Learning 模型透过评分奖励来学习正确答案以及思考逻辑
RLHF = 用人工审查,所以才有当初Google要员工去喂Bard的新闻
SFT: Supervised fine-tuning 用标记的资料去训练模型让他在特定领域中更精准
Rejection sampling: 模型产出多个结果的时候选择特定满足标准的输出
其实其他部分都差不多,但Deepseek是用什么方式去压低成本去做Pure RL?
用他们自己研发的Gpro (Group Robust Preference Optimization)
https://arxiv.org/abs/2405.20304
他们怎么不透过人工去确定产出优劣?
逻辑就是建立最佳猜测的模型: Coherence, Completeness, Fluency
但这也带来另外一个缺点
就是poor readability (阅读性差)、language mixing(语言混和)
所以Deepseek用第一张图的方式去解决
Cold start data处理易读性
用RL+Rejection sampling+SFT反复验证计算并Fine tune 结果
但R1背后的意涵,其实是RL能让小模型在专精领域出头天
透过Distill然后微调RL内容,可以在专精领域如药物、材料...等取得更好的成果
而不用再被绑死于大型语言service provider的服务
而这个也带来一个影响
企业在AI应用上会更有弹性,同时AI实际应用的穿透性更高
https://tinyurl.com/ms2vev4s
R1背后的逻辑和技术,用在小模型上面有极大的成本优势
大型语言的发展依然会持续,但硬件算力军备竞赛的资本投入势必会减少
因为大型语言还是适合多数小白使用者 (如我)
以GPT-4来说,他给的回答讯息会很完整包括前因后果
而R1给的就是非常简洁.....不太废话
对专业人士来说,R1有时候只给你一行字其实非常的有效率
但智障如我就必须要花更多时间去思考
BTW R1在Ethical Considerations 上面多数人评价是比GPT4还好喔XDDDD
看到这东西,反正是开源的,程式码都摊开在那边给你看
应该是要想着怎么去利用,而不是讨论中/美或成最大赢家吗?
怎么搞到变成政治意识形态的争执了?
有些推文一直扯到超导体,我就不懂有什么可比性...
本身有一点点计算机概论底子加上英文能力就可以去稍微理解这东西
结果很多人都只用台湾媒体或网红的贴文去判断,这个逻辑不太行阿
※ 引述《LDPC (Channel Coding)》之铭言:
: 现在全网络上的开源数据资料是属于pre-training端 大多都是野生数据 无标签
: 那东西只是让模型去向鹦鹉一样 去做文字接龙
: 但第二阶段训练会用到RLHF (Reinforcement Learning from Human Feedback)
: 就是要人类针对不同数据给意见 这个是要给标签
: 所以你才会听到狗家之前要求全公司员工去给意见让Gemini前身 Bard 去做人类feedback
: 这个人工成本是很大
: Deepseek-R1跟大家说 我们不用人类给的feedback了 我们可以免除这块
: 大家都在讨论的叫做sythetic dataset
: 这个步骤是来自于你有许多野生数据 但需要加上标签 那标签可以拿更强大模型来标注
: 比方说 一道数学题目 你可以用人类写解答 或者要拆步骤 每步骤让gpt-4o写个答案
: 这就是所谓synthetic dataset 然后用这组数据去调教模型 这步骤会决定
: 你的模型多智能 这过程就是call api 现在ai界都这样干 缺点就是训练模型上限就是
: 原始母模型 这跟传统蒸留 用模型直接交模型不太依一样
: 这种方式就是可以用低成本 接近gpt-4o 但你如果这样干 你模型就不能商业化
: 顶多发表到文章 讲你这是怎样做 最经典例子就是LLaVA那篇 讲如何用gpt4o
: 产生sythetic dataset让textLLM 变成多模态 直接打爆其他大厂高成本多模态
: 之前网络上已经有人在讨论 到底deepseek有没有用api去合成数据
: https://reurl.cc/A6ab98
: https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版)
: 在training这部分还没定案之前 大家就先吃瓜看看吧 @@
: 但这思路还是有可取之处 就是模型教模型 不要再用人类RLHF去教模型
: https://x.com/op7418/status/1884065603184681162
: 这有点像回到当年alphago那条路线 模型互相教
: 下面网址是第三方 大家要复制deep-seek R1开源计画 任何人想参加都可以
: https://huggingface.co/blog/open-r1
: 目前公认是dep-seek R1隐藏了
: Replicate the R1-Distill models by distilling a high-quality
: reasoning dataset from DeepSeek-R1.
: 上面专案在征求大家尝试去制造出合成数据
: 好了 我要去炸薯条了 @@/ 救救我
: ※ 引述《IBIZA (温一壶月光作酒)》之铭言:
: : 各家互相参考, 指的是训练方法还有训练的文本挑选, 蒸馏不太一样
: : AI = 模型的程式码+训练
: : 能开源的部分只有程式码, 训练是看各自调教
: : 模型的能力够, 差不多的调教方式就会得到差不多的结果
: : 训练方法更好, 或是文本品质越高、越多样、量越多, 模型就越强
: : 自从OpenAI爆红以来, 大公司的LLM模型都是遵循OpenAI的训练方法
: : 预先训练: 拿大量文本让AI模型学习基本语言能力、基本知识
: : 监督微调: 有了基本能力之后, 模型开始有推理能力
: : 这时候由人类介入, 告诉模型怎么想是对的, 怎么想是错的
: : 之前所谓的贴标签, 就是这个阶段
: : 奖励建模: 把对错的判断建立模型, AI想对了, 这个模型就奖励他
: : 强化学习: AI自己跟自己练习
: : 不管是meta还是google, 之前都是照OpenAI这个成功模式做
: : 所以这些公司能做的就是拼算力, 透过更大量的训练, 希望最终可以暴力超车
: : 但蒸馏就不同, 蒸馏是直接拿另一个模型的推理结果, 让另一个模型照着得到同样结果
: : 譬如我要我刚刚问ChatGPT, 要他给举例说明什么是拟人法
: : 他的回答是这样
: : https://i.imgur.com/ey5mX61.png
: : ChatGPT要回答这个问题, 中间要经过很多推理, 譬如他要先理解我的问题
: : 这里面就牵涉到, 他要理解我讲的拟人法是修辞当中的拟人法
: : 然后再从这一个理解, 去思考拟人法的意思是什么, 最后再想出一个符合范例
: : 蒸馏的话, 就是学生模型已经预先知道这个问题的答案是什么
: : 有头有尾, 要生出中间的推理就会比较容易
: : 但这里有个问题
: : 你要用蒸馏让一个模型得到另一个模型类似的能力
: : 通常就是需要老师模型产生极大量的练习后结果
: : 才能传授毕生功力给学生模型
: : 如果ChatGPT是开源模型, 可以自己部署在自己平台上
: : 要做这样大规模训练是有可能
: : 但ChatGPT无法部署在自己平台
: : (刚刚有人说ChatGPT 2可以, 但蒸馏顶多只能逼近老师, 用ChatGPT 2只能蒸出垃圾)
: : 所以要做蒸馏只能透过API, 而要透过API做几千万甚至几亿规模的蒸馏训练
: : 这难度极高啊....
: : (ChatGPT刚刚教我另一个方法
: : 就是拿一个原本就有ChatGPT4能力的模型
: : 这样只要少量训练, 就能超越ChatGPT 4
: : 但原本就有ChatGPT 4能力的新模型难道自己会生出来吗XD
: : 你还是得先得到这个模型啊...就是V3
: : 那V3怎么来?)
作者: humorforever (~~悠闲过人生~~)   2025-01-30 07:46:00
青鸟:DS有没有台湾价值,没有就是垃圾
作者: turndown4wat (wat)   2025-01-30 09:31:00
这样meta之后还敢开源模型吗
作者: william45682 (Bear熊)   2025-01-30 10:48:00
理性思考
作者: sarspieya521 (HANA)   2025-01-30 12:35:00
想赚钱就别带什么意识形态
作者: MumiPyonPyon   2025-01-30 13:26:00
GRPO根本不是这篇吧==

Links booklink

Contact Us: admin [ a t ] ucptt.com