前阵子自家公司GPU也不够用了...在测试一堆想法时候 决定自掏腰包去租外面GPU
找了几间像是 https://lambdalabs.com/ 结果...wtf 也是大爆满
看了几个AI论坛 一堆自行开发者都自己测试各种pretrained model的下游fine-tune
也是各种哀嚎抢GPU 以前这帮个人开发者在自己的RTX 就可以简单测试 但现在的
LLaMA也好 Diffusion也好 越来越难在家用游戏显卡上跑
尤其这阵子流行Foundation Model 每个小测试GPU都要xN (N>16) 这种方式去train
对比几年前一两个GPU就能搞出点东西的时代过去了 现在就是万物暴力解
CLIP这种东西甚至资料都高达数个TB 以后二线公司没足够GPU就是别想玩大模型设计
Pretrain/Foundation Model 全部只能做下游adapter 然后第三方或个人开发者
就可以拿这些fine-tune model 去设计自己需求 各种AI落地方案开始遍布
然后这种大模型就是造就GPU极度缺乏!!!! 最近找遍各种第三方GPU租用计算之后
以及在内部公司 随便丢个大模型测试 都要在自家公司上server排队个三四天才能跑
第三方租用 我已经等了一个礼拜 根本排不到 甚至看了一下讨论串 感觉一堆硅谷各公司
都在屯GPU https://shorturl.at/ouwMS https://udn.com/news/story/6811/7199315
上周的感觉真让我想起2020 我那时候为了买个家俱 要等上半年以上..于是默默地
就继续加码三大股的其中两个
如果苏妈MI-300真的好用话 会一定分流 不过现阶段H-100的优势就是有Transformer
加速优势(据说三倍加速以上) 而MI-300没这优势 尤其现在AI架构都是万物Transformer
这波就是Transformer/Foundation Model+硬件暴力解 搭配Fine-Tune搞起AI流
(有兴趣可以看FeiFei Li 那帮人对Foundation Model的预测和见解
https://arxiv.org/abs/2108.07258) 顺带一提Qualcomm这波完全选择AI光谱的另一端
他们选走on-device路线 就是大模型对立面 大模型和on-device可以说是AI极大和极小
概念 看起来华尔街这帮人对on-device题材 完全不感兴趣
老黄当年第一个提出GPU概念 从2000~2010 跟ATI每六个月增加硬件效能
互相硬件效能疯狂对决 军备竞赛 带动3D游戏市场 感觉历史又再一次循环...
https://www.youtube.com/watch?v=BlI9PVQA8ZA
然后以后人类的用途就是去当电池了QQ 这波AI继续搞下去 以后一定缺电