Re: [情报] 50美元训练出媲美DeepSeek R1

楼主: LDPC (Channel Coding)   2025-02-07 02:00:21
https://arxiv.org/abs/2501.19393
读完了 稍微整理一下这篇 这篇基本上就是#1dccCRfj 就是CoT synthetic dataset
透过母体大模型去设计一连串思考问题(这边是用Gemini) 来应对一个困难任务
而此时新模型能更好地学会思考
这篇文章列了好几个synthetic dataset的样板
https://ibb.co/YFNLCNcS
也用了另外大模型去确认CoT Synthetic dataset 品质
Table 5. Summary of our dataset s1K. Token count measured by the
Qwen-2.5 tokenizer. We prompt Claude to produce keywords given
several questions from the domain.
这篇最大亮点是提供开源了思考练的合成数据(CoT Sythetic dataset) 样本和样板
刚好弥补之前所说第三方想重新复制deep-r1 但缺数据
https://huggingface.co/blog/open-r1
(版上好多ai专家说 还说舍抹不可能拿opean api去做数据 真的是...)
然后为何以前没人做? 因为没有第一代母体大模型
但虽然CoT (思考链 也就是让模型慢慢想 不要一步到位想出答案 而是把问题
拆解N各步骤任务子问题 一步步去解决 上面的合成数据就是在做这类似事情)
可以提升效能 但这手段也是要付出一些代价
以我自己做过的LLM翻译模型为例 在infenrece端 使用CoT 可以直接把BLEU/COMET
冲上个20% 但付出的代价就是 速度变慢五倍 (类比人类反应时间) 在许多落地场景
基于使用者体验 速度是有严格定义 (比方说翻译一句话 最多只能用多少秒)
那遇到这种问题 要如何解决?
"遇到不能解决的事情 就用C4炸弹" <谣言终结者>
"遇到效能或速度拉不起来 就用大算力" < @v@b >
(注:当然 在inference端 能提供多少样户
queries 算力也是个重要指标 参照 #1crWnRFw 第二个连结 评价GB200 用户请求效能)
在AI算法 除了效能 成本外 还有一个重要指标 就是速度 很多探讨你会注意到
其实速度没放在里面一起评价 这造成一种错觉 会误认算力需求可以透过算法去减轻
事实上很多算法拉升效能 降低成本 此时会付出内存代价 或者速度产出变慢的代价
而许多落地产景 恰巧速度是很重要的体验 (QQ 不能分享例子 不然会被抓走)
然后老黄的亲儿子coreweave 也上线了
https://blogs.nvidia.com/blog/blackwell-coreweave-gb200-nvl72-instances-cloud/
现在基于一堆优秀第一代母体大模型 天网出来也是迟早的事情 @n@/
我们离电池之日不远了
然后苏妈有给了一个ASIC和GPU大战的看法 改天再分享@@/
※ 引述《LimYoHwan (gosu mage)》之铭言:
: 标题:
: 李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型
: 来源:
: Futu
: 网址:
: https://tinyurl.com/ydrtdbu8
: 内文:
: 李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名
: 叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSe
: ek的R1等尖端推理模型类似。研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0
: Flash Thinking Experimental提炼出来的。
: https://i.imgur.com/kFg9GjU.jpeg
: 斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法,被称为 S1
: 。
: S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能!同时匹敌Deepseek R1
: 推理时间可控:S1 通过简单的“Wait”机制,控制大模型的思考时间,提高推理能力。
: S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻,但它揭示了在推理时微调 AI 的潜力
: ,甚至可以媲美 Reinforcement Learning(强化学习)。
: OpenAI 和 DeepSeek 早期研究发现,AI 在回答问题时“思考得更久”,往往能得出更好
: 的答案。但过去并没有清楚解释:如何在推理阶段控制 AI 的思考时间?
: S1 的创新点: S1 论文提供了推理时间扩展(Inference Scaling)的具体实现方法:
: 核心思想:
: 如何在不改变 AI 训练过程的情况下,提高 AI 解决复杂问题的能力?
: 方法:让 AI 在推理时“多想几秒”,自动检查自己的答案,从而减少错误,提高正确率
: !
: 结果证明,这种方法比 OpenAI o1-preview 还要好!
: 最重要的是:而且只用了 1000 道题! 这比一般 AI 训练的数据少了 800 倍,但效果仍
: 然很强!
: 此外,该模型可以在笔记本电脑上运行,并且其训练成本仅为 6 美元。
: 论文下载
: https://arxiv.org/pdf/2501.19393
作者: PureAnSimple (PureAndSimple)   2025-02-07 02:56:00
能赚钱了再叫我

Links booklink

Contact Us: admin [ a t ] ucptt.com