Re: [问卦] DeepSeek成本这么低的原因是啥?

楼主: pttdocc (Hi)   2025-01-30 17:31:48
Hi 可否问一下比较不专业的问题
1.
大致照你这边提到的部份 那么Deepseek 主要省训练成本的部份 主要是跳过SFT(或著也许
还有其它步骤)的这个作法
而不是像一些报导说的 直接"蒸馏"ChatGPT"(直接用ChatGPT的问答训练一个较小模型)
是吗? (distill这边省的 是让大家也能用便宜硬件来跑)
2. 那么我想单就distill这部份 OPENAI自已应该也能够distill出规模较小
能力接近ChatGPT的模型 只是OPENAI要争取大笔补助 又要线上收费 所以没必要作出或是
发布这个来搬石头砸自已的脚
请问我上面的理解大致正确吗? 谢谢
※ 引述《OnePiecePR (OPPR)》之铭言:
: 分两个部分来说,
: ———————————————
: 第一个部分是澄清:
: DeepSeek 是微调别人做的基本模型。
: 比如脸书 meta 花数千万美金或上亿美金做出模型 llama.
: 而 DeepSeek 花5、600万美金做的是拿基本模型作微调。
: 台湾也花了大约100万台币(猜的)微调成taide 模型释出.
: 某美国大约花279美金推出一个不错的微调模型,sky .
: 还要说的,千万不要这么瞧不起微调啊!
: 问问中央大学的蔡老师就知道。
: ———————————————
: 第二部分才是 DeepSeek的省钱:
: 首先,他做模型训练时有挑过一个步骤SFT),所以比较省钱;
: 基本上他在乎的是推理能力、所以跳过 SFT, 所以对话能力可能不会太强(?可能啦、自己
: 去测);
: 第二个步骤是因为他把模型”压缩”(知识蒸馏应该也是一种压缩法),
: 我们老百姓在用的时候因为用蒸馏模型的话,
: 会因为模型小、大家用的时候就又快又便宜。不要以为只有训练贵,其实营运时很多人用,
: 费用也是惊人。
: 如果 DeepSeek 这次真的让世人接受,那么可能是中国在GPU 受限(虽然 DeepSeek可能也
: 有50000张GPU)后找到一种定位。
: 当然我们台湾应该也看见我们也是有可能发展模型的可能!
: 我就跃跃欲试~
: ———————————————
: ———————————————
: 以下偏技术解说:
: 1. 要从基本模型(比较像背书、像鹦鹉一直讲话,而不太懂对话),到我们熟悉的 ChatGP
: T 大约要做一种指示训练,指示训练就是先教模型不要只会背书、要学会对话(第一个微调
: 出现了,叫 SFT), 另一个是学会不要用语言霸凌别人、要说好话(RLHF):
: DeepSeek 他比较不在乎太多对话流畅或者 ai 主权(照论文说的、实际要自己试试),他
: 要挑战的是最近风头上的推论能力的提升,所以他略过花钱的 SFT, 同时把 RLHF 改成真的
: 有用的 RL。然后就推力能力不错了,又省钱。
: (其实后来又加回来 窄化版 SFT, 取名字叫 cool start dataset, 只作一点点训练、一点
: 点资料,偏逻辑、推论格式的训练,所以很省钱)
: 这样子就大功告成、训练好了。
: 训练好了但是我们在问他的时候,因为模型大,也是浪费时间、算力、金钱,所以他就把原
: 来做好的模型用蒸馏法缩小。
: 这篇论文,算是简单易懂,
: 根据政大蔡炎龙教授的指示,大家可以挑战看看,不要网络上乱停。
: (其实论文里有很多还要讨论的事情,但是我猜想 DeepSeek 团队微调能力与理论观念很好
: 、都能避开点点点…)
: 蒸馏法很有趣,李宏毅老师的 yt 影片有教,可能是2018、19 的课程、大概是深度学习的
: 下一步的课程。
: 以上是肥宅今年 ptt 额度,大年初二一次用完。

Links booklink

Contact Us: admin [ a t ] ucptt.com