[爆卦] 50美元训练出媲美DeepSeek R1 JQK2 PTT批踢踢实业坊

[爆卦] 50美元训练出媲美DeepSeek R1

楼主: JQK2 2025-02-06 19:32:48

李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型
https://tinyurl.com/ydrtdbu8
https://arxiv.org/pdf/2501.19393
李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名
叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSe
ek的R1等尖端推理模型类似。研究人员表示，s1是通过蒸馏法由谷歌推理模型Gemini 2.0
Flash Thinking Experimental提炼出来的。
https://i.imgur.com/kFg9GjU.jpeg
斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法，被称为 S1
。
S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能！同时匹敌Deepseek R1
推理时间可控：S1 通过简单的“Wait”机制，控制大模型的思考时间，提高推理能力。
S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻，但它揭示了在推理时微调 AI 的潜力
，甚至可以媲美 Reinforcement Learning（强化学习）。
OpenAI 和 DeepSeek 早期研究发现，AI 在回答问题时“思考得更久”，往往能得出更好
的答案。但过去并没有清楚解释：如何在推理阶段控制 AI 的思考时间？
S1 的创新点： S1 论文提供了推理时间扩展（Inference Scaling）的具体实现方法：
核心思想：如何在不改变 AI 训练过程的情况下，提高 AI 解决复杂问题的能力？
方法：让 AI 在推理时“多想几秒”，自动检查自己的答案，从而减少错误，提高正确率
！
结果证明，这种方法比 OpenAI o1-preview 还要好！
最重要的是：而且只用了 1000 道题！这比一般 AI 训练的数据少了 800 倍，但效果仍
然很强！
此外，该模型可以在笔记本电脑上运行，并且其训练成本仅为 6 美元。

继续阅读

[问卦] 只有我觉得软糖应该要做得跟鸡蛋一样大颗assassinASHE [问卦] 用deepseek为何会有泄漏资安问题？rs6677 [问卦] 台湾为什么做不出抖音来征服美国notimenofree [问卦] 台湾哪一家化工厂最重视员工安全？TaLeiBan5566 [问卦] 大S的遗产分配是不是超级复杂？cigxm [新闻] 水电费遭删300多万环境部拔2成灯管、周Waitaha Re: [问卦] 有人在日本参加过一日游旅行团吗?AyanoSushi Re: [新闻] 鲑鱼精液注射脸颊！最新医美手法在美爆butten986 Re: [问卦] 其实不能全怪小菲parttime Re: [问卦] 不剥虾的男人GKKR