※ 引述《hugh509 ((0_ 0))》之铭言:
: 先说我不懂AI运算
: 只是看了林亦的新影片
: https://youtu.be/UsfmqTb2NVY
就鬼扯,我也懒的喷他。现在老黄是遥遥领先所有人,AI全吃,没什么好争辩的。
现在所谓的DL,第一需要的是运算,第二才是内存频宽。
M2Ultra的gpu就27.2tflops(fp32),跟3080差不多,但ampere有两倍的(fp16+fp32accumulate)还有4x的(fp16)。现在fp16训练就很够了,担心你可以用fp16+fp32模式,那也是2x你m2 ultra。
https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaper-v2.1.pdf
https://tinyurl.com/yuak5w5d
4090是82.6tflops(fp32),330.3tflops(fp16)。m2ultra连车尾都看不到,可怜啊。
然后M2Ultra的31.6tops,那应该是int8无误如果是int4那就更可怜。4090是660.6(int8)tops与1321.2(int4)tops。这已经是被超车好几十圈了。(tops是inference用的)
H100 datasheet
https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
https://tinyurl.com/bdfuutbe
h100 pcie是最低阶的
756tflops(tf32)
1513tflop(fp16)
h100是狠狠的虐了所有人包含a100。2x~4x(a100)
https://www.mosaicml.com/blog/amd-mi250
AMD的mi250不到a100的80%,mi300的specs其实跟mi250差不多,mi300主要是apu功能。
只有google的tpu跟intel的gaudi2跟a100有输有赢。
https://mlcommons.org/en/training-normal-30/
gaudi2在gpt3的训练大概是h100的1/3性能。
intel为什么要取消rialto bridge?现在ai当道,fp64强的hpc架构根本毫无用处。AMD因为只有mi300所以只能硬上了,但383tflops(fp16)要怎么跟1500+tflops的h100比?
intel现在把资源集中在gaudi3/4,期望2年内可以看到老黄的车尾。
有人以为老黄只是因为cuda软件赢。其实nn很容易移植到其它架构,老黄是硬件大赢+长期耕耘ai。