Re: [问卦] 自由时报笑了:Deepseek准确度超低

楼主: OnePiecePR (OPPR)   2025-01-31 12:46:52
※ 引述 《oppo5566》 之铭言:
: 一早起来就看到自由A3在嘲笑DeepSeek
:
: 资讯准确率超低 只有17%
:
: 还有超过一半机率给没有用的答案
:
: https://i.imgur.com/r066Tiw.jpeg
:
: 这样比起来 台湾跟数位部是不是又赢了
听说资讯准确率超低,
那么为什么会震撼美国?
昨天猜想的可能原因,再贴一次。
整理一下:
分两个部分来说,
———————————————
第一个部分是澄清:
DeepSeek 是微调别人做的基本模型。
比如脸书 meta 花数千万美金或上亿美金做出模型 llama.
而 DeepSeek 花5、600万美金做的是拿基本模型作微调。
台湾也花了大约100万台币(猜的)微调成taide 模型释出.
某美国大学花279美金推出一个不错的微调模型,sky .
还要说的,千万不要这么瞧不起微调啊!
问问中央大学的蔡老师就知道。
———————————————
第二部分才是 DeepSeek的省钱:
首先,他做模型训练时有挑过一个步骤SFT),所以比较省钱;基本上他在乎的是推理能力、
所以跳过 SFT, 所以对话能力可能不会太强(?可能啦、自己去测);
第二个步骤是因为他把模型”压缩”(知识蒸馏应该也是一种压缩法),
我们老百姓在用的时候因为用蒸馏模型的话,会因为模型小、大家用的时候就又快又便宜。
不要以为只有训练贵,其实营运时很多人用,费用也是惊人。
如果 DeepSeek 这次真的让世人接受,那么可能是中国在GPU 受限(虽然 DeepSeek可能也
有50000张GPU)后找到一种定位。
当然我们台湾应该也看见我们也是有可能发展模型的可能!
我就跃跃欲试~
———————————————
———————————————
以下偏技术解说:
1. 要从基本模型(比较像背书、像鹦鹉一直讲话,而不太懂对话),到我们熟悉的ChatGPT
还要做一种指示训练,指示训练就是先教模型不要只会背书、要学会对话(第一个微调出现
了,叫 SFT), 另一个是学会不要用语言霸凌别人、要说好话(RLHF):
DeepSeek 他比较不在乎太多对话流畅或者 ai 主权(照论文说的、实际要自己试试),他
要挑战的是最近浪头上的推论能力的提升,所以他略过花钱的 SFT, 同时把 RLHF 改成真的
有用的 RL。然后就推力能力不错了,又省钱。
(其实后来又加回来 窄化版 SFT, 取名字叫 cool start dataset, 只作一点点训练、一点
点资料,偏逻辑、推论格式的训练,所以很省钱)
这样子就大功告成、训练好了。
训练好了但是我们在问他的时候,因为模型大,也是浪费时间、算力、金钱,所以他就把原
来做好的模型用蒸馏法缩小。
这篇论文,算是简单易懂,
根据政大蔡炎龙教授的指示,大家可以挑战看看,不要网络上乱听。
(其实论文里有很多还要讨论的事情,但是我猜想 DeepSeek 团队微调能力与理论观念很好
、都能避开点点点…)
蒸馏法很有趣,李宏毅老师的 yt 影片有教,可能是2018、19 的课程、大概是深度学习的
下一步的课程。
回文补充:
知识蒸馏技术很普遍,
但知识蒸馏多少会损及准确率,
要看 OpenAI 自己的斟酌。
OpenAI 也是有一些便宜的模型在卖 api, 怎么做的,我是没研究,但是大家看 OpenAI 总
是看最强大的。
我们也总是觉得高智慧的回应是真理。
而 DS 是挑战者、他猛攻推理能力,这是近期被指出通往 AGI 的可能技术,
DS 先准备好一个基本模型,是一个小参数量的基本模型,所以已经有语言能力,
然后他从大的 DS 模型自动产生有推理步骤的资料(人工筛选高品质资料),
把有语言能力的小模型去学习 “大模型的推理问题的输入输出的资料”,然后小模型就有
了推论能力。会不会学了推论能力损及语言能力,这个就要多一些实作累积经验。
所以猛攻推理能力、能够有所帮助,这样前提下,是不是语言能力下降可能他不算在乎,他
也可能就比较不看乡民的测试或唐凤的报告了。
其他补充:
DS 的 RL-only 与 蒸馏的资料都是从大模型产生,不需要人提供。
当然资料的源头总是已知答案的知识…这个就不多说了。
以上是论文写的,其他部分会不会加入中国习惯的小动作,我是不知道。

Links booklink

Contact Us: admin [ a t ] ucptt.com