[情报] MI300X vs H100 vs H200测试&分析 - semi

楼主: baddaddy (坏爸爸)   2024-12-24 10:05:04
标题:
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
网址:
https://reurl.cc/oVyd9v
内文:
此篇为semianalysis 测试5个月比较
MI300X H100 H200实际使用的效能以及使用上的现况
下面放上作者的发现总结,详细请看文章
1. 在纸上比较 FLOP/s 和 HBM 频宽/容量类似于仅透过检查百万像素数来比较相机。判断?
2. Nvidia 的开箱即用效能和体验令人惊叹,我们在基准测试期间没有遇到任何 Nvidia 特
3. AMD 的开箱即用体验非常难以使用,需要相当大的耐心和努力才能达到可用状态。 在我们的大多数基准测试中,AMD PyTorch 的公共 AMD 稳定版本仍然存在问题,我们需要解决方法。
4 如果没有多个 AMD 工程师团队对我们遇到的 AMD 软件错误进行分类和修复的支持,AMD 的结果将远低于 Nvidia。
5 . 我们与 Sustainable Metal Cloud 合作在 256 H100 上运行非官方 MLPerf Training GPT-3 175B,以测试不同 VBoost 设定的效果
6. 对于 AMD 来说,公开稳定发布的软件的真实世界性能与其纸面销售的 TFLOP/s 相差甚远。 Nvidia 的现实世界表现也低于其行销 TFLOP/s,但相差不大。
7. 与 H100/H200 相比,MI300X 的总拥有成本 (TCO) 较低,但在 AMD 软件的公共稳定版本上,MI300X 的每 TCO 训练效能较差。如果使用 AMD 软件的客制化开发版本,情况就会改变。
8. 训练效能较弱,MI300X的矩阵乘法微基准测试表明,AMD公开发布的软件在单节点训练吞吐量上仍落后于Nvidia的H100和H200。
9. MI300X 的效能受到 AMD 软件的阻碍。 BF16开发分支上的AMD MI300X软件具有更好的效能 ,但尚未合并到AMD内部储存库的主要分支中。当它合并到主分支和 PyTorch 稳定版本时,Nvidia Blackwell 将已经可供所有人使用。
10. AMD 的训练表现也受到阻碍,因为 MI300X 无法提供强大的横向扩展效能。这是由于与Nvidia 对其Nvidia 集体通讯库(NCCL)、InfiniBand/Spectrum-X 网络结构和交换器的强大整合相比,其ROCm 计算通讯库(RCCL) 较弱,且AMD 与网络和交换硬件的垂直集成程度较低。
11. 许多 AMD AI 库都是 NVIDIA AI 库的分支,导致结果不佳和相容性问题。
12. AMD 客户倾向于仅使用手动制作的核心进行推理,这意味着它们在非常狭窄的明确定义的用例之外的效能很差,并且不存在快速转移工作负载的灵活性。
作者: junior020486 (软蛋头)   2024-12-24 10:28:00
陈先生你的科技水平太落后了
作者: vincent0911x (身在曹营,心在汉。)   2024-12-24 10:42:00
有第一买为什么要买第二 NV 台G 无限资金买就对了
作者: luvstarrysky (爱恋星空1)   2024-12-24 10:49:00
不意外阿 ppt吹得多屌 实际就多烙赛amd还是回去顾好cpu就好吧 市占都还没赢过intel就想开这么多条线 还打成这个样子 花一堆钱在AI上结果出这什么垃圾不要最后把大半的钱砸在AI上 结果CPU也被打趴毕竟CPU那边也没有说领先多少 一代可能被追上
作者: BruceChen227 (BruceChen0227)   2024-12-24 10:56:00
NVDL继续抱!
作者: luvstarrysky (爱恋星空1)   2024-12-24 11:00:00
对呀 这代intel桌机也才第一代用台积电制程当初AMD刚跟台积电合作时也一堆问题 下一代不就爆发而且intel这一代架构还是用旧的 就MTL的改进版下一代完全新架构 amd只要不跟着大改进就会被打趴而且到时intel还有自家18A制程 选择更为弹性amd就每个市场都想分一杯羹阿 硬凑进来被打烂真不知砸一堆钱搞这干嘛
作者: greedypeople (普通人)   2024-12-24 18:29:00
可是上个被A90说卒业预定的公司.......

Links booklink

Contact Us: admin [ a t ] ucptt.com