Re: [新闻] OpenAI:已掌握DeepSeek盗用模型证据

楼主: LDPC (Channel Coding)   2025-01-30 01:19:19
现在全网络上的开源数据资料是属于pre-training端 大多都是野生数据 无标签
那东西只是让模型去向鹦鹉一样 去做文字接龙
但第二阶段训练会用到RLHF (Reinforcement Learning from Human Feedback)
就是要人类针对不同数据给意见 这个是要给标签
所以你才会听到狗家之前要求全公司员工去给意见让Gemini前身 Bard 去做人类feedback
这个人工成本是很大
Deepseek-R1跟大家说 我们不用人类给的feedback了 我们可以免除这块
大家都在讨论的叫做sythetic dataset
这个步骤是来自于你有许多野生数据 但需要加上标签 那标签可以拿更强大模型来标注
比方说 一道数学题目 你可以用人类写解答 或者要拆步骤 每步骤让gpt-4o写个答案
这就是所谓synthetic dataset 然后用这组数据去调教模型 这步骤会决定
你的模型多智能 这过程就是call api 现在ai界都这样干 缺点就是训练模型上限就是
原始母模型 这跟传统蒸留 用模型直接交模型不太依一样
这种方式就是可以用低成本 接近gpt-4o 但你如果这样干 你模型就不能商业化
顶多发表到文章 讲你这是怎样做 最经典例子就是LLaVA那篇 讲如何用gpt4o
产生sythetic dataset让textLLM 变成多模态 直接打爆其他大厂高成本多模态
之前网络上已经有人在讨论 到底deepseek有没有用api去合成数据
https://reurl.cc/A6ab98
https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版)
在training这部分还没定案之前 大家就先吃瓜看看吧 @@
但这思路还是有可取之处 就是模型教模型 不要再用人类RLHF去教模型
https://x.com/op7418/status/1884065603184681162
这有点像回到当年alphago那条路线 模型互相教
下面网址是第三方 大家要复制deep-seek R1开源计画 任何人想参加都可以
https://huggingface.co/blog/open-r1
目前公认是dep-seek R1隐藏了
Replicate the R1-Distill models by distilling a high-quality
reasoning dataset from DeepSeek-R1.
上面专案在征求大家尝试去制造出合成数据
好了 我要去炸薯条了 @@/ 救救我
※ 引述《IBIZA (温一壶月光作酒)》之铭言:
: ※ 引述《mangle (mangle123)》之铭言:
: : 比较好奇这段:
: : 尽管蒸馏是AI业界常见做法,但DeepSeek若利用蒸馏技术来打造自家模型,并与OpenAI竞 争,将违反OpenAI服务条款,因此产生疑虑。
: : OpenAI的服务,或是“利用输出结果,来开发与OpenAI竞争的模型”。
: : 各个ai 大语言模型不是都会互相参照比较和训练吗? 我以为这是业界常识…
: : 不过要怎么定义“与openai 竞争的模型”? 因为deepseek 也没盈利而且也开源学习,他也承认他不只从chatgpt训练也参照不少,deep seek 也认为自己是chatgpt
: : 所以是真有盗窃疑虑,还是业界常识的互相学习使用? 如何定义这部分
: 各家互相参考, 指的是训练方法还有训练的文本挑选, 蒸馏不太一样
: AI = 模型的程式码+训练
: 能开源的部分只有程式码, 训练是看各自调教
: 模型的能力够, 差不多的调教方式就会得到差不多的结果
: 训练方法更好, 或是文本品质越高、越多样、量越多, 模型就越强
: 自从OpenAI爆红以来, 大公司的LLM模型都是遵循OpenAI的训练方法
: 预先训练: 拿大量文本让AI模型学习基本语言能力、基本知识
: 监督微调: 有了基本能力之后, 模型开始有推理能力
: 这时候由人类介入, 告诉模型怎么想是对的, 怎么想是错的
: 之前所谓的贴标签, 就是这个阶段
: 奖励建模: 把对错的判断建立模型, AI想对了, 这个模型就奖励他
: 强化学习: AI自己跟自己练习
: 不管是meta还是google, 之前都是照OpenAI这个成功模式做
: 所以这些公司能做的就是拼算力, 透过更大量的训练, 希望最终可以暴力超车
: 但蒸馏就不同, 蒸馏是直接拿另一个模型的推理结果, 让另一个模型照着得到同样结果
: 譬如我要我刚刚问ChatGPT, 要他给举例说明什么是拟人法
: 他的回答是这样
: https://i.imgur.com/ey5mX61.png
: ChatGPT要回答这个问题, 中间要经过很多推理, 譬如他要先理解我的问题
: 这里面就牵涉到, 他要理解我讲的拟人法是修辞当中的拟人法
: 然后再从这一个理解, 去思考拟人法的意思是什么, 最后再想出一个符合范例
: 蒸馏的话, 就是学生模型已经预先知道这个问题的答案是什么
: 有头有尾, 要生出中间的推理就会比较容易
: 但这里有个问题
: 你要用蒸馏让一个模型得到另一个模型类似的能力
: 通常就是需要老师模型产生极大量的练习后结果
: 才能传授毕生功力给学生模型
: 如果ChatGPT是开源模型, 可以自己部署在自己平台上
: 要做这样大规模训练是有可能
: 但ChatGPT无法部署在自己平台
: (刚刚有人说ChatGPT 2可以, 但蒸馏顶多只能逼近老师, 用ChatGPT 2只能蒸出垃圾)
: 所以要做蒸馏只能透过API, 而要透过API做几千万甚至几亿规模的蒸馏训练
: 这难度极高啊....
: (ChatGPT刚刚教我另一个方法
: 就是拿一个原本就有ChatGPT4能力的模型
: 这样只要少量训练, 就能超越ChatGPT 4
: 但原本就有ChatGPT 4能力的新模型难道自己会生出来吗XD
: 你还是得先得到这个模型啊...就是V3
: 那V3怎么来?)
作者: TaipeiKindom (微软基本教义激进份子)   2025-01-30 01:25:00
好多英文,不过跟我想的一样用AI训练AI,天网一定就是这样诞生的
作者: Wolverin5566 (月工月工犭良)   2025-01-30 02:04:00
西神坛
作者: dongdong0405 (聿水)   2025-01-30 07:22:00
我已经和同事商量好年后要去卖酸菜鱼了(X

Links booklink

Contact Us: admin [ a t ] ucptt.com