我先讲我非AI专业
但这件事情基本就是鬼扯
什么叫做利用O1蒸馏出R1
你要用API抓多少资讯量跟TOKEN才做得出来
然后这件事情OPENAI还会不知道?
这是GPT回我的
透过 API 硬训练一个能够与 GPT-4 相媲美的模型,基本上是不可能的,原因如下:
1. 训练大规模语言模型(LLM)的数据量极大
GPT-4 这种级别的模型通常训练数百亿到数兆个 Token。以 OpenAI 的 GPT-4 为例,其
训练数据量非常庞大,远超 API 能够提供的输出量。如果一家公司试图透过 API 蒐集足
够的数据来训练一个类似的模型,会面临几个根本性的问题:
Token 成本极高:
假设要训练一个类似 GPT-4 的模型,至少需要 数千亿到数兆级的 token。但 OpenAI
API 计价昂贵,以 GPT-4 Turbo(8k) 为例:
1k tokens 输入约 $0.01,输出 $0.03
假设要获取 1 兆 tokens(这仍远低于 GPT-4 训练的规模):
输入成本:$10M(1 千万美元)
输出成本:$30M(3 千万美元)
这还只是获取数据的成本,并未包含训练成本!
训练硬件需求极高:
GPT-4 级别的模型训练需要 数万到数十万张 A100 或 H100 GPU,加上分布式计算架构、
强大的基础设施(如 TPUs、NVLink、高速存储等)。
目前,只有少数科技巨头(OpenAI、Google DeepMind、Anthropic、Meta)有这种算力。
2. OpenAI 及其他 API 提供者会限制速率
OpenAI、Anthropic、Google 都有 API 速率限制,防止这种大规模查询行为。例如:
API 请求有 速率上限,即便是企业级客户,也不可能无限次查询。
OpenAI 可侦测异常流量模式,如果一个帐户开始以异常高频率查询,可能会被封锁或调
查。
API 可能有内建的 水印技术(Watermarking),能够识别是否有人尝试透过 API 逆向工
程训练模型。
3. 透过 API 训练的模型质量很差
即使绕过上述问题,透过 API 获取的只是模型的输出(Soft Labels),而不是完整的训
练数据,导致以下问题:
知识有限:API 只能回传有限的内容,而 GPT-4 是基于更大的数据集(书籍、论文、网
站等)训练的,无法还原原始的知识基础。
风格模仿但泛化能力差:学生模型可能可以模仿 GPT-4 的回应风格,但缺乏真正的理解
与推理能力。
无法获取内部权重与梯度更新:深度学习模型不只是靠输入与输出,还需要内部梯度更新
来调整权重,而 API 无法提供这种资讯。
4. 真正可能的“轻量级蒸馏”方式
尽管完全复制 GPT-4 几乎不可能,但仍有一些可能的方式来部分学习闭源模型的行为:
小规模指导性训练(Fine-tuning):
例如 Stanford Alpaca 项目,就是利用 GPT-3.5 API 生成了一小部分数据(5 万条样本
),用来微调 LLaMA 7B,但它的能力远远比不上 GPT-4。
增强式学习(Reinforcement Learning with AI Feedback, RLAIF):
透过 API 让 GPT-4 帮助标注“哪个回应比较好”,然后用这些标注来强化一个开源模型
,例如 LLaMA 或 Mistral。
少量特定领域资料的风格模仿:
例如用 GPT-4 API 生成一个领域(如医疗、法律)的数据集,然后训练一个专门的 AI,
这样的应用可能不会违反 OpenAI 的 ToS,但也无法真正模仿 GPT-4 的泛用能力。
结论
完全透过 API 逆向工程 GPT-4 来蒸馏一个相似的模型,基本上是不可能的。
API 成本极高,训练 GPU 资源需求极大,让这种方式在现实中难以执行。
OpenAI、Anthropic 等公司有 API 速率限制与异常行为侦测,防止这种滥用。
即使透过 API 硬撑出一个模型,它的泛化能力、理解能力都远不如 GPT-4。
真正有效的方法还是依赖开源模型(如 LLaMA 3、Mistral 7B)或自己收集高质量的语料
来训练,而不是试图从 API 硬抄模型的知识。
说穿了要是这件事情这么简单
O1早就被美国其他AI公司抄爆了好吗
拜托一点
要抄到整个模型
这成本要多高?
重点还要刷到你openai不知道
这难度比绑架土耳其人还难巴
※ 引述《LDPC (Channel Coding)》之铭言:
: 现在全网络上的开源数据资料是属于pre-training端 大多都是野生数据 无标签
: 那东西只是让模型去向鹦鹉一样 去做文字接龙
: 但第二阶段训练会用到RLHF (Reinforcement Learning from Human Feedback)
: 就是要人类针对不同数据给意见 这个是要给标签
: 所以你才会听到狗家之前要求全公司员工去给意见让Gemini前身 Bard 去做人类feedback
: 这个人工成本是很大
: Deepseek-R1跟大家说 我们不用人类给的feedback了 我们可以免除这块
: 大家都在讨论的叫做sythetic dataset
: 这个步骤是来自于你有许多野生数据 但需要加上标签 那标签可以拿更强大模型来标注
: 比方说 一道数学题目 你可以用人类写解答 或者要拆步骤 每步骤让gpt-4o写个答案
: 这就是所谓synthetic dataset 然后用这组数据去调教模型 这步骤会决定
: 你的模型多智能 这过程就是call api 现在ai界都这样干 缺点就是训练模型上限就是
: 原始母模型 这跟传统蒸留 用模型直接交模型不太依一样
: 这种方式就是可以用低成本 接近gpt-4o 但你如果这样干 你模型就不能商业化
: 顶多发表到文章 讲你这是怎样做 最经典例子就是LLaVA那篇 讲如何用gpt4o
: 产生sythetic dataset让textLLM 变成多模态 直接打爆其他大厂高成本多模态
: 之前网络上已经有人在讨论 到底deepseek有没有用api去合成数据
: https://reurl.cc/A6ab98
: https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版)
: 但这思路还是有可取之处 就是模型教模型 不要再用人类RLHF去教模型
: https://x.com/op7418/status/1884065603184681162
: 这有点像回到当年alphago那条路线 模型互相教
: 下面网址是第三方 大家要复制deep-seek R1开源计画 任何人想参加都可以
: https://huggingface.co/blog/open-r1
: 目前公认是dep-seek R1隐藏了
: Replicate the R1-Distill models by distilling a high-quality
: reasoning dataset from DeepSeek-R1.
: 上面专案在征求大家尝试去制造出合成数据
: 好了 我要去炸薯条了 @@/ 救救我
: ※ 引述《IBIZA (温一壶月光作酒)》之铭言:
: : 各家互相参考, 指的是训练方法还有训练的文本挑选, 蒸馏不太一样
: : AI = 模型的程式码+训练
: : 能开源的部分只有程式码, 训练是看各自调教
: : 模型的能力够, 差不多的调教方式就会得到差不多的结果
: : 训练方法更好, 或是文本品质越高、越多样、量越多, 模型就越强
: : 自从OpenAI爆红以来, 大公司的LLM模型都是遵循OpenAI的训练方法
: : 预先训练: 拿大量文本让AI模型学习基本语言能力、基本知识
: : 监督微调: 有了基本能力之后, 模型开始有推理能力
: : 这时候由人类介入, 告诉模型怎么想是对的, 怎么想是错的
: : 之前所谓的贴标签, 就是这个阶段
: : 奖励建模: 把对错的判断建立模型, AI想对了, 这个模型就奖励他
: : 强化学习: AI自己跟自己练习
: : 不管是meta还是google, 之前都是照OpenAI这个成功模式做
: : 所以这些公司能做的就是拼算力, 透过更大量的训练, 希望最终可以暴力超车
: : 但蒸馏就不同, 蒸馏是直接拿另一个模型的推理结果, 让另一个模型照着得到同样结果
: : 譬如我要我刚刚问ChatGPT, 要他给举例说明什么是拟人法
: : 他的回答是这样
: : https://i.imgur.com/ey5mX61.png
: : ChatGPT要回答这个问题, 中间要经过很多推理, 譬如他要先理解我的问题
: : 这里面就牵涉到, 他要理解我讲的拟人法是修辞当中的拟人法
: : 然后再从这一个理解, 去思考拟人法的意思是什么, 最后再想出一个符合范例
: : 蒸馏的话, 就是学生模型已经预先知道这个问题的答案是什么
: : 有头有尾, 要生出中间的推理就会比较容易
: : 但这里有个问题
: : 你要用蒸馏让一个模型得到另一个模型类似的能力
: : 通常就是需要老师模型产生极大量的练习后结果
: : 才能传授毕生功力给学生模型
: : 如果ChatGPT是开源模型, 可以自己部署在自己平台上
: : 要做这样大规模训练是有可能
: : 但ChatGPT无法部署在自己平台
: : (刚刚有人说ChatGPT 2可以, 但蒸馏顶多只能逼近老师, 用ChatGPT 2只能蒸出垃圾)
: : 所以要做蒸馏只能透过API, 而要透过API做几千万甚至几亿规模的蒸馏训练
: : 这难度极高啊....
: : (ChatGPT刚刚教我另一个方法
: : 就是拿一个原本就有ChatGPT4能力的模型
: : 这样只要少量训练, 就能超越ChatGPT 4
: : 但原本就有ChatGPT 4能力的新模型难道自己会生出来吗XD
: : 你还是得先得到这个模型啊...就是V3
: : 那V3怎么来?)