※ 引述 《pttdocc》 之铭言:
:
: 1.
: 大致照你这边提到的部份 那么Deepseek 主要省训练成本的部份 主要是跳过SFT(或著
: 也许
:
: 还有其它步骤)的这个作法
:
:
: 而不是像一些报导说的 直接"蒸馏"ChatGPT"(直接用ChatGPT的问答训练一个较小模型)
:
: 是吗? (distill这边省的 是让大家也能用便宜硬件来跑)
没有错,
成本除了 “训练微调出模型”,还有”应用时推论营运成本”
1. 训练主要跳过 SFT,
2. 推论营运的成本就是云端假设大家的应用成本,也同时带动本地假设的可能。
所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度还不错,30B 完全舒服。
我也准备好钱等 n舍的 project digits 了
: 2. 那么我想单就distill这部份 OPENAI自已应该也能够distill出规模较小
:
: 能力接近ChatGPT的模型 只是OPENAI要争取大笔补助 又要线上收费 所以没必要作出或是
:
: 发布这个来搬石头砸自已的脚
:
:
: 请问我上面的理解大致正确吗? 谢谢
知识蒸馏技术很普遍,
但知识蒸馏多少会损及准确率,
要看 OpenAI 自己的斟酌。
OpenAI 也是有一些便宜的模型在卖 api, 怎么做的,我是没研究,但是大家看 OpenAI 总
是看最强大的。
我们也总是觉得高智慧的回应是真理。
而 DS 是挑战者、他猛攻推理能力,这是近期被指出通往 AGI 的可能技术,
DS 先准备好一个基本模型,是一个小参数量的基本模型,所以已经有语言能力,
然后他从大的 DS 模型自动产生有推理步骤的资料(人工筛选高品质资料),
把有语言能力的小模型去学习 “大模型的推理问题的输入输出的资料”,然后小模型就有
了推论能力。会不会学了推论能力损及语言能力,这个就要多一些实作累积经验。
所以猛攻推理能力、能够有所帮助,这样前提下,是不是语言能力下降可能他不算在乎,他
也可能就比较不看乡民的测试或唐凤的报告了。
其他补充:
DS 的 RL-only 与 蒸馏的资料都是从大模型产生,不需要人提供。
当然资料的源头总是已知答案的知识…这个就不多说了。