※ 引述《app325 (艾波)》之铭言:
: Deepseek 横空出世
: 应该让大家都吓了一跳
: 程式码是开源的
: 有高手看的出来训练成本这么低的原因是啥吗?
目前的推测应该是跳过了训练模型的部分
也就是说不是从0开始构筑AI模型,而是用成熟的AI模型来训练,避免掉很多无谓的试错
或空转,也就是之前新闻在说的“蒸馏技术”
AI 系统中的 “蒸馏技术”(Knowledge Distillation,知识蒸馏),是一种 模型压缩
(Model Compression) 方法,主要用来让较小的模型学习较大模型的知识,同时保持高
效的推理能力。这种技术能够在减少计算成本的同时,保留较好的性能,特别适合资源受
限的设备(如手机、嵌入式设备等)。
### 知识蒸馏的基本概念
1. 教师模型(Teacher Model)
- 一个预先训练好的大型 AI 模型,通常是性能较强但计算量较大的深度学习模型。
2. 学生模型(Student Model)
- 一个较小的 AI 模型,它的目标是学习教师模型的知识,达到类似的预测效果,但
计算量更小、效率更高。
3. 蒸馏过程(Distillation Process)
- 让学生模型学习教师模型的 软标签(Soft Labels),即教师模型对数据的概率分
布,而不仅仅是标准的硬标签(Hard Labels)。
- 通常会引入一个 温度参数(Temperature)来调整教师模型的输出,使得学生模型
能更有效地学习隐含知识。
### 知识蒸馏的应用
- 语音识别(如 Siri、Google Assistant)
- 自然语言处理(如 BERT 蒸馏版 DistilBERT)
- 图像识别(如 MobileNet)
- 推荐系统(如个性化推荐)
这种方法可以让 AI 模型在保证准确度的前提下,变得更轻量、高效,适用于移动设备、
边缘计算等场景。