Re: [问卦] DeepSeek怎么一天就走下神坛?

楼主: KanzakiHAria (神崎・H・アリア)   2025-01-29 22:59:10
※ 引述《tim790809 (scheduling)》之铭言:
: 耶~不是...
: 礼拜一造成全球股价大崩盘
: APP、Android排行第一的软件
: 八卦捧到爆的AI
: 阿怎么才过1天多8个小时就瞬间被戳破?
: 礼拜一跌的股市慢慢爬回中
: 美国巨头纷纷指出有盗用行为?
: 新闻也都开始爆出许多问题??
: 挖靠...这比除夕特别节目还好看耶
: 所以DS到底是屌不屌啊?
: 有没有专业一句话说明??
专业一句话就是 R1是一个"方法论"而不是模型 v3是新模型范式的概念验证
建议先去看 LATS 或 ANPL 比较好理解什么叫"方法论"
先讲v3价值:打破了以往单一模型走scaling law 成本是近似指数或n^2夸张上升
所以AI能力要变强 原本是要暴胀式的砸钱 军备竞赛般的资本竞赛
v3 open的paper说明了 用成千上百个小model集合也能做出类似效果 不用被大n惩罚
回来讲R1 举例来说 可以先看ANPL原理
ANPL让AI变强做法是让AI先拆解问题 再逐步解决 类似"Let's think step by step"
之前要让LLM做深度思考一律都是COT
比如把每次LLM的输入输出当作一个节点
把多个节点做评分 最终选择整条链评分最高的项目 即MCTS概念
这就像是alphago那样 每次棋步后面都要估算后面几十步对于这步的总评分(胜率)
LATS就是用LangGraph去实现MCTS的COT 这是方法论 所以可以套用任何LLM
你替换任何LLM LATS都能提升输出成果
GPT-o1(原q* project)采用人工先写好大量的推论步骤去保证COT品质
并非直接让AI去随意生成许多条节点再自我评分 而是人工先标注什么是好推论
因此人工撰写教科书等级的推论就是o1高成本最主要的因素
(这也是CloseAI藏起来的主因 这个很贵不能给其他人看到XD)
就像alphago master需要挖出所有顶尖对局棋谱然后数位化
R1则是舍弃了节点拆步骤思维 直接让LLM去随意探索可能方式
在这个情况下R1反而做出了各种有创意的推论方式
就像是alphago zero 自行探索反而下出自己一套逻辑
如同LATS可以替换任何的LLM R1也可以使用任何的LLM去做这件事
实验室复现R1是指拿一个LLM 做这个方法论 看可以拿到AI怎么做推论过程
复现的结论也高度一致 使用越优秀的LLM当作基底 可以拿到更好的推论过程
所以任何LLM都可以做R1 就跟任何LLM都可以套LATS类似
因此
在那边说不能回答64 就是根本不懂R1
你拿任何可以回答64的LLM套用R1的方法论 就拿到可以回答64的AI了

Links booklink

Contact Us: admin [ a t ] ucptt.com