楼主:
lou3612 (鱼)
2025-01-28 14:07:55※ 引述《umi0912umi (赤井はあとのぶた)》之铭言:
: 那个deepseek我看有人在说他是RL
: 然后用无监督
: 但我记得transformer不也是无监督吗
: deepseek有哪边比较特别吗
: 然后我觉得这张图很好笑
: https://i.imgur.com/aka2y5t.jpeg
差很多
一时半刻有点难说清楚
RL比较少人说是无监督 应该说是自动监督?
不论如何都比supervised便宜很多很多
deepseek只用了一点点SFT来稳定模型的行为
然后就全用RL来冲performance
所以就比一般的LLM很要省钱省非常非常多