[心得] 资料中心投资方向 LDPC PTT批踢踢实业坊

[心得] 资料中心投资方向

楼主: LDPC (Channel Coding) 2025-02-17 14:43:22

"遇到任何不能解决的事情就用C4炸弹" <谣言终结者>
在AI界这边也是
"遇到任何无法解决的事情就用算力出奇蹟" < @v@b AI社群>
(在下方任何段落只要看到这** 就跳回来这默念这句话)
#算法
从算法这边看这阵子不论是DeepSeek也好甚至去年之前的SSM算法
(比Transformer更具有压缩资料性) 都会塑造出算力需求是否不在重要?
又或者MoE架构(早期MoE 大模型可追朔到法国的Mistral) 在推论端都可以使用更少的
模型容量(activatino parameters) 去达到Dense 大模型效能是否意味我们不在需要
高算力? 再抛弃算力无用论先看往过去几个历史发展
#数据
从数据这边看在更早之前微软提出"Textbook is all you need"
证明数据高品质可以让小模型3B可以接近数十B模型效能从早期开始野生数据
到去精炼数据都证明数据的品质决定模型的效能那是否数据高品质
就可以减低算力需求? 然而在讲数据品质前得先回到
数据这边的发展史
### (赚p币你可以跳过没股点)
这世界充满大量无标签野生数据而无标签的数据通常都是野生数据
并充满噪声干扰而有标签的数据通常都昂贵如何利用大量野生数据和少量标签数据
就变成这几年的AI算法发展史这几年模式
通常都是第一阶段先用野生数据去做预训练概念有点像文字接龙一样
或者挖空部分野生数据叫模型去猜数据被消去的部分长怎样
又或者用多模态野生数据作预训练时
去比较哪两个多模态属于同类型哪两种多模态数据是不同类型等等这样训练完模型
通常就做Foundation Model 就想成初始模型这类模型就是能从野生数据学到分类
和预测野生数据该长怎样但做不了任何事情他就是只能做分类没了
此时为了让模型做更多复杂的事情在第二阶段训练开始运用了高品质标签数据
这些高品质标签数据通常都是一个特地场景你希望模型能处理的事情
可能是文字翻译可能是物体检测可能是资讯搜寻和回答问题透过数据和给的标签答案
模型学会到了
到此为止模型还是缺乏所谓智能无法举一反三然后OpenAI介绍出RLHF 毕竟OpenAI
在这领域有PPO设计这第三阶段就是所谓的透过人类给任务和人类的认知
机器去学这阶段也可视为是一种需要答案/标签的数据反馈透过RLHF后
模型此时展现了有扩占性和泛化等充满前景的惊人效果但如何更好地提高模型效能?
时间线回到了2022~2023
OpenAI发现透过模型参数变大数据变大此时模型的思考能力出现了涌现效果
模型大小会决定数据大小数据大小和模型大小决定算力需求(** @v@b 默念上面)
具体公式看这
https://blog.csdn.net/taoqick/article/details/132009733
(注:DeepSeekV3 训练成本减少是透过float8和模型参数减少MoE架构)
接者到了2023 GPT等大模型产生后许多AI社群开始用GPT等来造高品质的标签数据
像是LLaVA 造出300k 多模态数据让TextLLM转变为多模态能看到影像的LLM
此时合成数据概念出现了 (又或者称为distilled synthetic dataset)
就是透过设计任务比方说给GPT看野生数据像是图片或影像叫GPT找出有车子图片
并且标注还记得上面微软给过高品质数据能让小模型打赢大模型吗?
于是各种用GPT去合成高品质数据文章纷纷出现
接者要来讲到Chain-of-thought这概念在各种第一代LLM出现后一帮人在开始研究
再不牵涉到重新去调教模型(Training)情况下如何让模型变更聪明点?
这时候思考练概念出现核心概念就是把一个问题拆成子问题让模型更好回答
比方说你讲一句中文然后叫你家LLM翻成英文他很可能有时候会翻不好
因为你给的指令是要求LLM一次性的 (一步到位) 答出问题
如果用COT (Chain-of-thought) 此时你可以下指令说先把我说的中文转成中文文字
第二步再把中文文字转成英文文字这时候模型翻译能力品质就大幅上升
在设计拆解任务时你也可以用比较法比方说你如果问LLM
我去台北最快的方式是何种？ LLM可能会说跳入虫洞就可以瞬间到台北这种幻觉回答
又或者根本打不出
而在设计COT 你可以第一步问LLM 去一个地点有哪些方法然后第二步说根据每个方法
估出从我现在地点到台北时间第三步说从里面挑出最快的方式然后模型就能正确回答
到此为止似乎觉得你家模型可以无成本变得很聪明了对吧!!!然后在模型效能里面
有一个隐藏成本叫做Infenrece Time/Latency 就是你花多少时间得到你要答案
透过拆解问题你需要等待时间变长了但很多场景你希望模型快速给你答案
但你又希望答案是充满智能的回答那该怎样办?? (** 默念上句 @v@b)
而算力大小可以决定Latency 通常我们用Tokens/sec来衡量这指标
然后为何提到COT?因为OpenAI在去年开始把CoT融入训练一环改进了RLHF更好的效果
拓展模型思考(reasoning)能力
现在AI界开始反思一个问题我们能不能不需要用大量人力去做
第三步RLHF 但透过巧妙设计RL和用第一代母模型(e.g. ChatGPT)来合成有思考性质
的数据? 尤其是在第一阶段的野生数据现实中我们已经用完了现在需要更多的
标签数据来增加模型的效能这个论点就是Deepseek R1想验证的但这牵涉到好几个问题
没有第一代人类反馈LLM是无法做出来的同时这个LLM还得是多模态能具有思考链CoT
才能合成良好的思考数据(Reasoning Sythentic Dataset)
有了这玩意你就可以开始让模型去教模型然后无穷循环进化
因此你也看到李飞飞那篇是拿(gemini-2.0-flash-thinking )具有思考的来设计COT
https://arxiv.org/abs/2501.19393 合成数据这篇只使用SFT 也就是上面第二阶段
来训练模型证明数据品质和思考重要所以某老兄拿这篇diss 还说打不赢deepseek-r1
就是一个岳飞打张飞因为r1有用第三步RF 这篇只是要开源合成数据用SFT
展示合成数据品质还疯狂diss这篇乱定义distill概念
从上上周开始整个AI界都开始尝试研究如何用合成数据来教导模型智慧也就是
如何更适当的设计RL 来让模型教模型就是走向alphago-zero概念但没有上述这些
历史巨人肩膀我们是无法走到这
###赚p币结束回到股点
#算力
AI在落地端通常是用Inference效能来决定里面有两个重点一个是速度已经提过
一个就是能支撑多少用户而B200就是这两者的最漂亮的作品参考下图
https://ibb.co/F4mXCnLd
通常算力越多能支撑的客户请求queries就越多速度也就越快 (** @v@b)
参照 #1crWnRFw 第二个连结评价GB200 用户请求效能
而在训练端 Scaling Law 预测了模型大小和数据以及效能的一个线性关系
就算算法上或者数据上改进也都只是让Scaling Law 那条斜线更加倾斜
但模型大小仍然会决定智能因此也意味算力需求是一个线性向上 (** @v@b)
### 股点重点 ###
在讲数据中心之前先回到AI的一个基本方向
AI就是由三个因素叠加起来算法资料算力就像三原色一样缺一不可
算法跟资料算是每个国家都可以自己掌握唯独算力是牵涉到基础大建设
是需要金钱和时间堆积
于是美国第一个看到这点开始疯狂的卷资料中心建设
阿祖的故事之前说过了
https://reurl.cc/WNmR8D
底下有个卫星空照图 https://ibb.co/y4Ww9s6
2022阿祖在盖传统数据中心结果AI起来后为因应AI数据中心 2023五月阿祖直接把
盖到一半的数据中心拆掉重新盖一次只为了能更安装GB200 重新设计散热和电力
现在就是裁员裁员裁员疯狂盖AI基础建设
资料中心相关
https://www.youtube.com/watch?v=UczALD7ZZDU
美国2868个
欧洲300多个
然而在AI发展起来所有新型数据中心变得重要
所以法国开始AI资料中心项目
https://reurl.cc/6jn7mO
泰国也开始了 Siam AI 额外追加2B
https://www.kaohooninternational.com/technology/552490
而中国也开始了 GDS万国数据在马来西亚新加波开始基建数据中心
https://www.youtube.com/watch?v=ApC9qiAT5Ew
https://www.facebook.com/watch/?v=338839389284780
https://reurl.cc/96mQlj
其余印度和中东也都开始在建设自己的AI基建算力平台
而老黄就是这波数据中心大赢家一但新型数据中心都走老黄规格那苏妈/ARM等三方
就会越难打这场战争这也是为何这两家最近动作频繁在加速老黄就算吃不到中国
也有大机会其他国家得去吃
结论:基于这接下来发展你可以按照数据算力算法三方向选公司投资
算力:老黄/AVGO
数据: Databrick(要上市了我会买爆他) Scale AI
算法:狗家脸家 OpenAI(买不到 @@ 考虑去那扫厕所看能不能给认股)
至于说啥AI现在是已经轮转到投资落地场景公司呵呵 @v@b
然后这也意味台G是一切的基石 @@

作者: goodapple807 (Archi) 2025-02-17 14:58:00

Databrick怎么听起来怪怪的XD

作者: fluffyradish (玲玲) 2025-02-17 16:25:00

最后一句重点

作者: PureAnSimple (PureAndSimple) 2025-02-17 16:43:00

算力永远不嫌多根本不用分析

作者: necrophagist (Hogong-Yeah) 2025-02-17 20:47:00

写得很好不是做这行的也能读懂七八成

继续阅读

[新闻] 不管台积电入股英特尔多或空？散户大军enouch777 [新闻] 环状线灾损双北求偿逾19亿中工:鉴定单位黑DrowningPool Re: [标的] TYO 7803 武士道无脑多messi5566 [闲聊] 2025/02/17 盘后闲聊laptic [新闻] 未改善个资疑虑！韩国宣布“全面中断”Decityhunter04 [新闻] 台积电美国厂3挑战曝光　魏哲家坦言“我enouch777 [心得] 哲哲: 以后满街自驾车台股今年26000 DDHOWDA [标的] 大盘空what5566 [新闻] 华安糖尿病药3期年底解盲；塑AI合作常态FreedomTrail [新闻] 林毅夫：今年陆经济好于去年有望跨入高cjol