楼主:
sxy67230 (charlesgg)
2025-01-29 15:33:28呃,这新闻是哪个平行时空新闻,当前一堆美国大学实验室都已经成功用其他小型模型像ll
ama或Qwen 复刻R1实验了,而且也事实证明模型只要有办法再训练的时候尽可能要求模型更
长更多轮的思考时间那就必然会让模型依据上下文涌现出推理能力。无论模型大小或是否用
deepseek的模型架构。
一堆知名的框架也开始尝试复刻开源版的R1 Code,我觉得R1几个比较可行的思路就是改用
了一些模板式的奖励机制,这点是之前一些TTT或其他scaling time computing 没尝
试过的思路,一般像之前的Process reward model在构造的时候会需要人工标注加验证器再
加树搜索取样出一堆推理步骤但R1直接给予一条很棒的思路就是你不必这样做就直接RL下去
也不用做搜索了,关键在怎么设计奖励函数就好。然后GRPO的方法近一步减少了传统PPO要
去算value function 的部分,确实省掉很多内存跟算力。但我觉得PPO的硬伤不好训练还
是没解掉,所以DS才改用拒绝采样跟多段微调去弄检查点避免模型跑偏。
我觉得依据这个思路过不久大家都可以复刻出自己的版本,很多开源模型也在动作,小规模
验证也证明可行,那就可以scaling model跟data size就好了。