[闲聊] LLM 推理用机器 sachialanlus PTT批踢踢实业坊

[闲聊] LLM 推理用机器

楼主: sachialanlus (yeh) 2024-06-16 15:43:26

由于最近 LLM 发展越来越快，刚好自己也有一些 LLM 的需求。
但又不想要使用 OpenAI 或是其他供应商的服务。
从前几个月开始就有想要自己弄个机器来架设服务的想法。
最近开始也对高参数的模型越来越好奇，但由于大容量 VRAM 的 GPU 实在是买不起，所以想说是不是转用 CPU 来玩玩看。
我看了很多技术分析和 Benchmark，基本上都说 LLM 的 inference 目前是 memory bound，也就是 memory bandwidth 是瓶颈。
所以按照这个思路用 CPU 来跑模型的话首要提升的就是 DDR 的 bandwidth。
我看了下 threadripper 和 xeon 的几个型号，其中我觉得 CP 值比较高的是 Intel 3435x 可以 8 通道 DDR5-4800，换算起来频宽大概是主流 PC 的 3-4 倍。
但我去拉了下估价单 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$
为了要用这颗 CPU，整个成本算起来根本不比买多张卡来得划算多少。
我就在想是不是还是 GPU 多卡买一买就好了，反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不动。
唯一想到的用途就是同时开很多个 instance 来服务不同的需求。
(上上个月还有海淘一张 2080Ti 22G 来试试看，结果用没几天就坏了... 还好能退)
最近也有在看 AMD 的 Strix Point，这代预期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能，但因为可以 DDR5-5600 所以扩充性会比 Strix Halo 只能用 LPDDR5x 来得好。
选 Strix Point 就等同于牺牲了当初追求的效能，但优点是低功耗而且便宜。
是不是应该等 Strix Point 出来组一台 128GB 的平台来跑跑小模型就好。
相比多卡的方案用 iGPU 的好处就是低功耗，但效能实在是天差地别。
有人也有类似的烦恼吗?
我自己的话预算希望是 100k 以内，最多捏到 150k。

继续阅读

[菜单] 15k 轻度游戏机世纪帝国2决定版b2993 Re: [请益] ikea IDASEN电动升降桌请益f26724309 [闲聊] Computex 2024之我的所见所闻(存储篇)Cubelia Re: [情报] 究竟是 PC 革命还是另一个昙花？浅谈 Wins78513221 [菜单] 30K游戏机规格更新qwe52963 [菜单] 50K PIX4D mapper 工作机gagoga [请益] 想外网、内网互相切换该买什么硬件？ludashi [菜单] 40K游戏机LEEptu [请益] 空冷散热塔回流焊跟热管数量对打哪个好MOMONGANAITO [菜单] 36K影音游戏机BuddyHield24