※ 引述《derekhsu (浪人47之华丽的天下无双)》之铭言:
: 这段一定很多人没看懂。
: 正确的说法是,蒸馏可以让较小的模型(学生)在特定任务上得到比原本的小模型更好,
: 近似于大模型(教师)的结果。
: 近似,就不可能比教师模型更好,只会更差。另外由于OpenAI没有开源,所以这种叫做
: 黑箱蒸馏。如果可以蒸馏把模型变小可以维持原来的品质,那就一直蒸馏一直蒸馏蒸馏
: 到1K大小好不好?
这里的说法如果是正确的话,那DeepSeek就不是只靠蒸馏来达成的.
https://reurl.cc/26eaDv
Scale AI’s 28-Year-Old Billionaire CEO Warns About This Scarily Good Chinese
Startup
这个CEO就是指控DeepSeek事实上拥有并使用50000个H100 GPU的人.
( https://reurl.cc/oV6veM )
但是他却写出:
Scale AI 最近还与人工智能安全中心合作发布了“人类的最后考试”,他们将其描述为
人工智能系统迄今为止最严格的基准测试。 Wang 表示,虽然迄今为止还没有模型能够在
测试中达到 10% 以上的成绩,但 DeepSeek 的新推理模型 DeepSeek-R1 已经位居排行榜
首位。 “他们的模型实际上是表现最好的,或者与美国最好的模型大致相当,”他告诉
CNBC。
也就是说DeepSeek-R1能力根本不输GPT-4o,
那DeepSeek怎么可能是靠蒸馏OpenAI来达成这样的结果呢?
: 还有,他有提到“特定领域”,也就是说是只是一个限定的范围,而不像是OpenAI或是
: DeepSeek要作的是通用的LLM。
: 你不可能靠蒸馏的方式把模型变小还能在通用领域达到跟教师模型不相上下的水准,这
: 是违反自然法则的。