[心得] 资料中心投资方向

楼主: LDPC (Channel Coding)   2025-02-17 14:43:22
"遇到任何不能解决的事情 就用C4炸弹" <谣言终结者>
在AI界这边也是
"遇到任何无法解决的事情 就用算力出奇蹟" < @v@b AI社群>
(在下方任何段落 只要看到这** 就跳回来这默念这句话)
#算法
从算法这边看 这阵子不论是DeepSeek也好 甚至去年之前的SSM算法
(比Transformer更具有压缩资料性) 都会塑造出算力需求是否不在重要?
又或者MoE架构(早期MoE 大模型可追朔到法国的Mistral) 在推论端都可以使用更少的
模型容量(activatino parameters) 去达到Dense 大模型效能 是否意味我们不在需要
高算力? 再抛弃算力无用论 先看往过去几个历史发展
#数据
从数据这边看 在更早之前 微软提出"Textbook is all you need"
证明数据高品质可以让 小模型3B可以接近数十B模型效能 从早期开始野生数据
到去精炼数据 都证明数据的品质决定模型的效能 那是否数据高品质
就可以减低算力需求? 然而在讲数据品质前 得先回到
数据这边的发展史
### (赚p币 你可以跳过 没股点)
这世界充满大量无标签野生数据 而无标签的数据通常都是野生数据
并充满噪声干扰 而有标签的数据通常都昂贵 如何利用大量野生数据和少量标签数据
就变成这几年的AI算法发展史 这几年模式
通常都是第一阶段先用野生数据去做预训练 概念有点像文字接龙一样
或者挖空部分野生数据 叫模型去猜数据被消去的部分长怎样
又或者用多模态野生数据作预训练时
去比较 哪两个多模态属于同类型 哪两种多模态数据是不同类型 等等 这样训练完模型
通常就做Foundation Model 就想成初始模型 这类模型就是能从野生数据 学到分类
和预测野生数据该长怎样 但做不了任何事情 他就是只能做分类 没了
此时为了让模型做更多复杂的事情 在第二阶段训练 开始运用了高品质标签数据
这些高品质标签数据 通常都是一个特地场景 你希望模型能处理的事情
可能是文字翻译 可能是物体检测 可能是资讯搜寻和回答问题 透过数据和给的标签答案
模型学会到了
到此为止 模型还是缺乏所谓智能 无法举一反三 然后OpenAI介绍出RLHF 毕竟OpenAI
在这领域有PPO设计 这第三阶段就是所谓的透过人类给任务和人类的认知
机器去学 这阶段也可视为是一种需要答案/标签的数据反馈 透过RLHF后
模型此时展现了有扩占性和泛化等充满前景的惊人效果 但如何更好地提高模型效能?
时间线回到了2022~2023
OpenAI发现 透过模型参数变大 数据变大 此时模型的思考能力出现了涌现效果
模型大小会决定数据大小 数据大小和模型大小 决定算力需求(** @v@b 默念上面)
具体公式看这
https://blog.csdn.net/taoqick/article/details/132009733
(注:DeepSeekV3 训练成本减少是透过float8和 模型参数减少MoE架构)
接者到了2023 GPT等大模型产生后 许多AI社群开始用GPT等来造高品质的标签数据
像是LLaVA 造出300k 多模态数据 让TextLLM转变为多模态能看到影像的LLM
此时 合成数据概念出现了 (又或者称为distilled synthetic dataset)
就是透过设计任务 比方说给GPT看野生数据 像是图片或影像 叫GPT找出有车子图片
并且标注 还记得上面微软给过高品质数据 能让小模型打赢大模型吗?
于是各种用GPT去合成高品质数据文章纷纷出现
接者要来讲到Chain-of-thought这概念 在各种第一代LLM出现后 一帮人在开始研究
再不牵涉到重新去调教模型(Training)情况下 如何让模型变更聪明点?
这时候思考练概念出现 核心概念就是 把一个问题拆成子问题 让模型更好回答
比方说 你讲一句中文 然后叫你家LLM翻成英文 他很可能有时候会翻不好
因为你给的指令是要求LLM一次性的 (一步到位) 答出问题
如果用COT (Chain-of-thought) 此时你可以下指令说 先把我说的中文转成中文文字
第二步再把中文文字转成英文文字 这时候模型翻译能力品质就大幅上升
在设计拆解任务时 你也可以用比较法 比方说 你如果问LLM
我去台北最快的方式是何种? LLM可能会说 跳入虫洞就可以瞬间到台北这种幻觉回答
又或者根本打不出
而在设计COT 你可以第一步问LLM 去一个地点有哪些方法 然后第二步说 根据每个方法
估出从我现在地点到台北时间 第三步说 从里面挑出最快的方式 然后模型就能正确回答
到此为止 似乎觉得你家模型可以无成本变得很聪明了 对吧!!!然后在模型效能里面
有一个隐藏成本 叫做Infenrece Time/Latency 就是你花多少时间得到你要答案
透过拆解问题 你需要等待时间变长了 但很多场景 你希望模型快速给你答案
但你又希望答案是充满智能的回答 那该怎样办?? (** 默念上句 @v@b)
而算力大小 可以决定Latency 通常我们用Tokens/sec来衡量这指标
然后为何提到COT?因为OpenAI在去年开始把CoT融入训练一环 改进了RLHF更好的效果
拓展模型思考(reasoning)能力
现在AI界开始反思一个问题 我们能不能不需要用大量人力去做
第三步RLHF 但透过巧妙设计RL和用第一代母模型(e.g. ChatGPT)来合成有思考性质
的数据? 尤其是在第一阶段的野生数据 现实中我们已经用完了 现在需要更多的
标签数据来增加模型的效能 这个论点就是Deepseek R1想验证的 但这牵涉到好几个问题
没有第一代人类反馈LLM是无法做出来的 同时这个LLM还得是多模态能具有思考链CoT
才能合成良好的思考数据(Reasoning Sythentic Dataset)
有了这玩意 你就可以开始让模型去教模型 然后无穷循环进化
因此你也看到李飞飞那篇是拿(gemini-2.0-flash-thinking )具有思考的来设计COT
https://arxiv.org/abs/2501.19393 合成数据 这篇只使用SFT 也就是上面第二阶段
来训练模型 证明数据品质和思考重要 所以某老兄拿这篇diss 还说打不赢deepseek-r1
就是一个岳飞打张飞 因为r1有用第三步RF 这篇只是要开源合成数据 用SFT
展示合成数据品质 还疯狂diss这篇乱定义distill概念
从上上周开始 整个AI界都开始尝试研究 如何用合成数据来教导模型智慧 也就是
如何更适当的设计RL 来让模型教模型 就是走向alphago-zero概念 但没有上述这些
历史巨人肩膀 我们是无法走到这
###赚p币结束回到股点
#算力
AI在落地端 通常是用Inference效能来决定 里面有两个重点 一个是速度已经提过
一个就是能支撑多少用户 而B200就是这两者的最漂亮的作品 参考下图
https://ibb.co/F4mXCnLd
通常算力越多 能支撑的客户请求queries就越多 速度也就越快 (** @v@b)
参照 #1crWnRFw 第二个连结 评价GB200 用户请求效能
而在训练端 Scaling Law 预测了模型大小和数据以及效能的一个线性关系
就算算法上或者数据上改进 也都只是让Scaling Law 那条斜线更加倾斜
但模型大小仍然会决定智能 因此也意味算力需求是一个线性向上 (** @v@b)
### 股点重点 ###
在讲数据中心之前 先回到AI的一个基本方向
AI就是由三个因素叠加起来 算法 资料 算力 就像三原色一样 缺一不可
算法跟资料算是每个国家都可以自己掌握 唯独算力是牵涉到基础大建设
是需要金钱和时间堆积
于是 美国第一个看到这点 开始疯狂的卷资料中心建设
阿祖的故事之前说过了
https://reurl.cc/WNmR8D
底下有个卫星空照图 https://ibb.co/y4Ww9s6
2022阿祖在盖传统数据中心 结果AI起来后 为因应AI数据中心 2023五月 阿祖直接把
盖到一半的数据中心拆掉 重新盖一次 只为了能更安装GB200 重新设计散热和电力
现在就是裁员裁员裁员 疯狂盖AI基础建设
资料中心相关
https://www.youtube.com/watch?v=UczALD7ZZDU
美国2868个
欧洲300多个
然而在AI发展起来 所有新型数据中心变得重要
所以法国开始AI资料中心项目
https://reurl.cc/6jn7mO
泰国也开始了 Siam AI 额外追加2B
https://www.kaohooninternational.com/technology/552490
而中国也开始了 GDS万国数据 在马来西亚 新加波开始基建数据中心
https://www.youtube.com/watch?v=ApC9qiAT5Ew
https://www.facebook.com/watch/?v=338839389284780
https://reurl.cc/96mQlj
其余印度和中东也都开始在建设自己的AI基建算力平台
而老黄就是这波数据中心大赢家 一但新型数据中心都走老黄规格 那苏妈/ARM等三方
就会越难打这场战争 这也是为何这两家最近动作频繁在加速 老黄就算吃不到中国
也有大机会其他国家得去吃
结论:基于这接下来发展 你可以按照数据 算力 算法三方向选公司投资
算力:老黄/AVGO
数据: Databrick(要上市了 我会买爆他) Scale AI
算法:狗家 脸家 OpenAI(买不到 @@ 考虑去那扫厕所看能不能给认股)
至于说啥AI现在是已经 轮转到投资落地场景公司 呵呵 @v@b
然后这也意味台G是一切的基石 @@
作者: goodapple807 (Archi)   2025-02-17 14:58:00
Databrick怎么听起来怪怪的XD
作者: fluffyradish (玲玲)   2025-02-17 16:25:00
最后一句重点
作者: PureAnSimple (PureAndSimple)   2025-02-17 16:43:00
算力永远不嫌多 根本不用分析
作者: necrophagist (Hogong-Yeah)   2025-02-17 20:47:00
写得很好 不是做这行的也能读懂七八成

Links booklink

Contact Us: admin [ a t ] ucptt.com