Re: R: [请益] 为什么中国越来越强?

楼主: LDPC (Channel Coding)   2025-02-01 10:27:33
怎抹这边突然变AI版 =_=
DeepSeek 有件事情干得比硅谷好 就是AI Backend 优化(这玩意就是需要懂架构
和软件 就是一个苦力枯燥活) 大体而言
在A100架构以前 大部分训练都还是用fp32 少数模型对精度不敏感会用到fp16
(浮点16进位)主因是用16进位去训练 精度不够 容易模型崩溃 尤其用P100的fp16
去训练LLM这类模型 大多都会崩 直到bf16这种新型的16进位出来 这时候训练成本
(等于同架构算力变两倍) 直接下到一半 在过去很少人在训练用fp8(8位元)精度
去训练模型 因为先天认为就是模型不稳 (顺带一提 在inference
把模型降到int8 是一个常见降成本做法 但training就很难)
然后deepseek 这个做得很好 他们重写底层cuda优化 (写ptx 直接优化硬件并列)
硬生生的把训练pipeline写出了一个fp8的版本 这又让算力直接变两倍
(*1)
我找到一篇稍微讲他们并列设计方式软件优化整理
https://finance.sina.com.cn/roll/2025-01-01/doc-inecmssv2908917.shtml
该编直接破题 卷工程
MoE 有一个最大挑战就是 通讯成本 以及如何把通讯成本降下来 DeepSeek也是围绕在
NVLink Load Balance (*2) 这也是围绕在高throughput的NVLink 优化活
https://news.cnyes.com/news/id/5847731
*1和*2基本上就是围绕NV卡Cuda底层的软件优化活 QQ
这玩意不能无痛移植到其他架构 会是完全不一样的推倒重练活 甚至硬件不支援无法复制
https://blog.csdn.net/weixin_42082868/article/details/130158784
而MoE对VRAM要求很高 说不需要HBM的 =_=......毕竟内存在LLM是一个重要参数
有很多算法是拿记忆空间换算力 (cache <-> 计算 参考白算盘)
因为是MoE 所以意味者每个token产生 只用了模型37B参数 这意味者 你的智能上限
就是37B参数的智能 这也意味者现阶段600B Dense 模型 上限可以更高
(有点像你在思考一个问题瞬间时刻 只用了脑容量10%跟 脑容量100%)
这也是为何MoE在Fine-Tune 基于泛化不足 难度会比Dense模型不稳
在Inference端 受益于
1. KV Cache压缩 ( Multi-head Latent Attention)
2. 37B参数运算量 per token
3. MLP (multi-token prediction) (参照Medusa这类paper)
每次不是一个个token产生 而是一次产生两个token (你也可以推广到n颗预测
但n>2 token 每次预测 失误率会变高 等于做白工)
所以产出token速度会造成同架构600B模型大概 10倍快 然后搭配老黄B200
int8 算力https://36kr.com/p/2927059579722630 老黄硬件也可以受益这种低精度
搭配MoE 解放出能提供的更多人数上限 (Inference Capaciy是单次访问算力x人数)
LLM现在最大门槛就是inference速度慢 很多paper都在环绕1,2,3推广
而deep seek就是把现阶段最好的1,2,3搭起来 搭AI Backend
key take away 通篇deepseek其实是把近年来所有经典算法围绕在NV的cuda底层优化
所以要把这算法复制在其他平台 会重新遇到一个底层优化的问题 就像AMD底层优化
并不如cuda好 而这次大概就是ai backend 码农 看到中国deekseek做得很好
个人建议 如果没NV卡 手上有M1/M2/M3芯片 可以尝试把上面123玩玩看 现在pytorch
有针对Mac GPU优化 (指令 device="mps" 如果你有NV卡那就不用多此一举)
https://github.com/karpathy/minGPT
强烈建议手刻KV Cache ( https://github.com/Zefan-Cai/KVCache-Factory )
https://dipkumar.dev/becoming-the-unbeatable/posts/gpt-kvcache/
KV Cache 开发是现在LLM里面的显学之一
除了增加就业能力 还可以帮助你股版吵架能力 @@/
作者: dongdong0405 (聿水)   2025-02-01 10:38:00
推有料 但股板老害们会看不懂
作者: jimjim951357 (v54dt)   2025-02-01 12:48:00
推 感谢分享

Links booklink

Contact Us: admin [ a t ] ucptt.com