Re: [问卦] DeepSeek成本这么低的原因是啥?

楼主: OnePiecePR (OPPR)   2025-01-30 17:08:43
分两个部分来说,
———————————————
第一个部分是澄清:
DeepSeek 是微调别人做的基本模型。
比如脸书 meta 花数千万美金或上亿美金做出模型 llama.
而 DeepSeek 花5、600万美金做的是拿基本模型作微调。
台湾也花了大约100万台币(猜的)微调成taide 模型释出.
某美国大约花279美金推出一个不错的微调模型,sky .
还要说的,千万不要这么瞧不起微调啊!
问问中央大学的蔡老师就知道。
———————————————
第二部分才是 DeepSeek的省钱:
首先,他做模型训练时有挑过一个步骤SFT),所以比较省钱;
基本上他在乎的是推理能力、所以跳过 SFT, 所以对话能力可能不会太强(?可能啦、自己
去测);
第二个步骤是因为他把模型”压缩”(知识蒸馏应该也是一种压缩法),
我们老百姓在用的时候因为用蒸馏模型的话,
会因为模型小、大家用的时候就又快又便宜。不要以为只有训练贵,其实营运时很多人用,
费用也是惊人。
如果 DeepSeek 这次真的让世人接受,那么可能是中国在GPU 受限(虽然 DeepSeek可能也
有50000张GPU)后找到一种定位。
当然我们台湾应该也看见我们也是有可能发展模型的可能!
我就跃跃欲试~
———————————————
———————————————
以下偏技术解说:
1. 要从基本模型(比较像背书、像鹦鹉一直讲话,而不太懂对话),到我们熟悉的 ChatGP
T 大约要做一种指示训练,指示训练就是先教模型不要只会背书、要学会对话(第一个微调
出现了,叫 SFT), 另一个是学会不要用语言霸凌别人、要说好话(RLHF):
DeepSeek 他比较不在乎太多对话流畅或者 ai 主权(照论文说的、实际要自己试试),他
要挑战的是最近风头上的推论能力的提升,所以他略过花钱的 SFT, 同时把 RLHF 改成真的
有用的 RL。然后就推力能力不错了,又省钱。
(其实后来又加回来 窄化版 SFT, 取名字叫 cool start dataset, 只作一点点训练、一点
点资料,偏逻辑、推论格式的训练,所以很省钱)
这样子就大功告成、训练好了。
训练好了但是我们在问他的时候,因为模型大,也是浪费时间、算力、金钱,所以他就把原
来做好的模型用蒸馏法缩小。
这篇论文,算是简单易懂,
根据政大蔡炎龙教授的指示,大家可以挑战看看,不要网络上乱停。
(其实论文里有很多还要讨论的事情,但是我猜想 DeepSeek 团队微调能力与理论观念很好
、都能避开点点点…)
蒸馏法很有趣,李宏毅老师的 yt 影片有教,可能是2018、19 的课程、大概是深度学习的
下一步的课程。
以上是肥宅今年 ptt 额度,大年初二一次用完。

Links booklink

Contact Us: admin [ a t ] ucptt.com