Re: [情报] 50美元训练出媲美DeepSeek R1

楼主: icrose (嗯,咳咳)   2025-02-07 13:01:48
我的信息源说是1000个样本是通过gemini得到,但是又以通义千问为基底模型进行监督微调而来的神奇表现
包括全球很多类似路线都是藉鉴通义千问才能达到这样的惊人效果,非李飞飞一家做到
这才是最奇怪的。
今日鼓点:大A乘风直上,就像哪吒2的票房
※ 引述《DrTech (竹科管理处网军研发人员)》之铭言:
: ※ 引述《LimYoHwan (gosu mage)》之铭言:
: 也是只看 fine-tune 1000题,一次的成本。
: 而且,试了不知道几次,
: 终于找到一次,
: 可以在部分考卷上赢一个很烂的模型。
: 媒体文章中,忽略不计的成本,至少包含:
: base模型训练的成本(至少占成本99%)
: 研究人员不断试错找1000题的成本。
: 多组1000题,再用 Gemini 模型,产生fine-tune资料的成本。
: 其他错误资讯,媒体的内文写:
: 研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0。
: 完全错误。原始论文写:
: 先准备 59000笔训练资料,在不断的用各种方式,选1000笔资料,再将1000笔 Gemini 2.0 Flash Thinking 改写训练资料。
: 最后再用这些资料fine-tune Qwen2.5-32B-Instruct模型。
~~~~~~~~~~~~~~~~~~~~~~~~~
yes,u r right
: 真的要乱写,也要写成蒸馏 Qwen2.5-32B的能力,而不是蒸馏 Gemini。
: 而且这种做法严格来说不叫蒸馏,叫fine-tune微调
: 结论:
: 研究没问题,找到了一种成本较低的流程,可产生可思考模型。但效果很一般。
: 一堆外行人,连论文都不看,在造假新闻。
: 媲美OpenAI-o1,deepseek-r1,连论文都没这样写,纯媒体造假。
作者: herculus6502 (金麟岂是池中物)   2025-02-07 13:20:00
有道理
作者: PureAnSimple (PureAndSimple)   2025-02-07 15:15:00
不重要。废文不如推文。

Links booklink

Contact Us: admin [ a t ] ucptt.com