由于最近 LLM 发展越来越快,刚好自己也有一些 LLM 的需求。
但又不想要使用 OpenAI 或是其他供应商的服务。
从前几个月开始就有想要自己弄个机器来架设服务的想法。
最近开始也对高参数的模型越来越好奇,但由于大容量 VRAM 的 GPU 实在是买不起,所以想说是不是转用 CPU 来玩玩看。
我看了很多技术分析和 Benchmark,基本上都说 LLM 的 inference 目前是 memory bound,也就是 memory bandwidth 是瓶颈。
所以按照这个思路用 CPU 来跑模型的话首要提升的就是 DDR 的 bandwidth。
我看了下 threadripper 和 xeon 的几个型号,其中我觉得 CP 值比较高的是 Intel 3435x 可以 8 通道 DDR5-4800,换算起来频宽大概是主流 PC 的 3-4 倍。
但我去拉了下估价单 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$
为了要用这颗 CPU,整个成本算起来根本不比买多张卡来得划算多少。
我就在想是不是还是 GPU 多卡买一买就好了,反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不动。
唯一想到的用途就是同时开很多个 instance 来服务不同的需求。
(上上个月还有海淘一张 2080Ti 22G 来试试看,结果用没几天就坏了... 还好能退)
最近也有在看 AMD 的 Strix Point,这代预期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能,但因为可以 DDR5-5600 所以扩充性会比 Strix Halo 只能用 LPDDR5x 来得好。
选 Strix Point 就等同于牺牲了当初追求的效能,但优点是低功耗而且便宜。
是不是应该等 Strix Point 出来组一台 128GB 的平台来跑跑小模型就好。
相比多卡的方案用 iGPU 的好处就是低功耗,但效能实在是天差地别。
有人也有类似的烦恼吗?
我自己的话预算希望是 100k 以内,最多捏到 150k。