楼主:
LDPC (Channel Coding)
2025-01-27 14:13:09DeepSeek这块有几个看法 Training端就等之后瓜出来再吃
在Inference这块 因为受限于MoE 所有推论成本可以降下来 但需求变高的是用记忆空间
和各个node之间的通讯开销 以及软件上cpu/gpu的load balance
以deepseek v3来说 600GB+ fp8 需要许多平行运算 这意味通讯瓶颈很重要
因为在切换专家时候 延迟会因此也跟者追加 而内存需求开销也很大
另外一点就是37B Activation是主因让推论可以成本下降 (不用全部671B来跑)
以h100来算这会让同样算力 成本下降10倍以上
但对算力芯片load balance和通讯跟内存开销需求也跟者增大
但对于同样算力可以提高10倍以上token产出
MoE好处就是更适合特制化的低成本下游任务 不适合泛化场景 所以不能用在机器人
这种场景多变任务上
这就代表 假设Deepseek最后成为低成本主流 这意味还是只有老黄能吃下它
(因为需要昂贵load blance 通讯开销 高需求vram)
ASIC那边不适合用在MoE架构 这些低成本就某种意义会解锁ai产品化
原本之前最大问题就是 现有的模型在Inference产生token的电力成本太贵
如果能让现有成本下降 这样才会能直接适用到消费端去
并不是说 提高tokens生产数量/单位算力 就等于减少铲子卖出
事实上 token数量/单位算力 过低 会造就无法ai模型落地化 反而产子卖不出去
最好的例子就是DeepSpeed (AI Backend 优化) 这玩意一年前 微软就用它来提高
tokens数量/单位算力 号称能增加1.5~3倍快同样算力 结果微软反而愿意花更多钱买算力
这波最大意义大概就是会变动推行MoE架构 然后ASIC死去 QQ 而老黄有NVLink
和垄断HBM产量 又有良好的cuda为主的AI Backend做load balance 感觉很难输
说到底 最简单的观察就是看1/23微软财报的资本支出 微软在01/03说出2025 80B
(Deepseek v3 12/26/2024 模型释出) 如果01/27资本支出维持原案 那就没啥太大担心