Re: [新闻]不,你无法用 600 万美元复制一个 DeepSee

楼主: KanzakiHAria (神崎・H・アリア)   2025-01-29 16:52:14
建议先去看LATS 比较好理解什么叫方法论
简单说R1是一套"如何让LLM可以做深度思考"的方法论
原本要让LLM做深度思考 之前的做法一律都是COT
比如把每次LLM的输入输出当作一个节点
把多个节点做评分 最终选择整条链评分最高的项目 即MCTS概念
这就像是alphago那样 每次棋步后面都要估算后面几十步对于这步的总评分(胜率)
LATS就是用LangGraph去实现MCTS的COT 这是方法论 所以可以套用任何LLM
你替换任何LLM LATS都能提升输出成果
GPT-o1(原q* project)采用人工先写好大量的推论步骤去保证COT品质
并非直接让AI去随意生成许多条节点再自我评分 而是人工先标注什么是好推论
因此人工撰写教科书等级的推论就是o1高成本最主要的因素
(这也是CloseAI藏起来的主因 这个很贵不能给其他人看到XD)
就像alphago master需要挖出所有顶尖对局棋谱然后数位化
R1则是舍弃了节点拆步骤思维 直接让LLM去随意探索可能方式
在这个情况下R1反而做出了各种有创意的推论方式
就像是alphago zero 自行探索反而下出自己一套逻辑
如同LATS可以替换任何的LLM R1也可以使用任何的LLM去做这件事
实验室复现R1是指拿一个LLM 做这个方法论 看可以拿到AI怎么做推论过程
复现的结论也高度一致 使用越优秀的LLM当作基底 可以拿到更好的推论过程
所以任何LLM都可以做R1 就跟任何LLM都可以套LATS类似

Links booklink

Contact Us: admin [ a t ] ucptt.com