Re: [情报] 50美元训练出媲美DeepSeek R1

楼主: DrTech (竹科管理处网军研发人员)   2025-02-07 08:14:36
※ 引述《LimYoHwan (gosu mage)》之铭言:
: 标题:
: 李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型
: 来源:
: Futu
: 网址:
: https://tinyurl.com/ydrtdbu8
: 内文:
: 李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名
: 叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSe
: ek的R1等尖端推理模型类似。研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0
: Flash Thinking Experimental提炼出来的。
: https://i.imgur.com/kFg9GjU.jpeg
: 斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法,被称为 S1
: 。
: S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能!同时匹敌Deepseek R1
: 推理时间可控:S1 通过简单的“Wait”机制,控制大模型的思考时间,提高推理能力。
: S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻,但它揭示了在推理时微调 AI 的潜力
: ,甚至可以媲美 Reinforcement Learning(强化学习)。
: OpenAI 和 DeepSeek 早期研究发现,AI 在回答问题时“思考得更久”,往往能得出更好
: 的答案。但过去并没有清楚解释:如何在推理阶段控制 AI 的思考时间?
: S1 的创新点: S1 论文提供了推理时间扩展(Inference Scaling)的具体实现方法:
: 核心思想:
: 如何在不改变 AI 训练过程的情况下,提高 AI 解决复杂问题的能力?
: 方法:让 AI 在推理时“多想几秒”,自动检查自己的答案,从而减少错误,提高正确率
: !
: 结果证明,这种方法比 OpenAI o1-preview 还要好!
: 最重要的是:而且只用了 1000 道题! 这比一般 AI 训练的数据少了 800 倍,但效果仍
: 然很强!
: 此外,该模型可以在笔记本电脑上运行,并且其训练成本仅为 6 美元。
: 论文下载
: https://arxiv.org/pdf/2501.19393
连结或内文,完全是错的。
根本是脑残媒体在乱写。与论文事实不符。
先说论文结论:
模型表现:
经过不断的做实验试错,
终于从59000笔训练资料中,
找到一组1000笔AI训练资料,
可以在"部分考卷"上赢 OpenAI的一个很烂的模型,o1-preview。
其他考卷考出来的分数,依然惨输给 deepseek-R1,ChatGPT-o1。
成本:不到50美元。
也是只看 fine-tune 1000题,一次的成本。
而且,试了不知道几次,
终于找到一次,
可以在部分考卷上赢一个很烂的模型。
媒体文章中,忽略不计的成本,至少包含:
base模型训练的成本(至少占成本99%)
研究人员不断试错找1000题的成本。
多组1000题,再用 Gemini 模型,产生fine-tune资料的成本。
其他错误资讯,媒体的内文写:
研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0。
完全错误。原始论文写:
先准备 59000笔训练资料,在不断的用各种方式,选1000笔资料,再将1000笔 Gemini 2.0 Flash Thinking 改写训练资料。
最后再用这些资料fine-tune Qwen2.5-32B-Instruct模型。
真的要乱写,也要写成蒸馏 Qwen2.5-32B的能力,而不是蒸馏 Gemini。
而且这种做法严格来说不叫蒸馏,叫fine-tune微调
结论:
研究没问题,找到了一种成本较低的流程,可产生可思考模型。但效果很一般。
一堆外行人,连论文都不看,在造假新闻。
媲美OpenAI-o1,deepseek-r1,连论文都没这样写,纯媒体造假。
作者: herculus6502 (金麟岂是池中物)   2025-02-07 08:36:00
反正这里是股版
作者: kissa0924307 (瓦斯来一桶)   2025-02-07 11:04:00
结论NVDA续抱

Links booklink

Contact Us: admin [ a t ] ucptt.com