[测试] I家E core在Ansys Fluent中的效能表现

楼主: xiaotee (晓薙)   2024-06-21 22:39:19
懒人包:没有用
部落格好读版:
https://soulattic.blogspot.com/2024/06/intel-13th-cpuansys-fluent.html
1. 前言
由于工作上时常需要使用CFD(计算流体力学)软件来模拟,加上对电脑硬件有些认识,成了
成了本次做这一些小测试的契机。
念研究所的时候12代刚上,当时有时间可以进行测试,实验室的设备费却已经干了,因此一
直没能买有大小核设计的CPU来进行一些CFD运算的测试。我看到的大多说法都说大小核
设计有助于计算密集型的生产力应用,例如渲染、剪片转档等等,也确实在Cinebench之类
的跑分软件中有十分强悍的表现。
网络上国内外的评测都鲜少提到CFD软件的测试成绩,只有少数评测网站会测试开源的CFD软
体OpenFOAM,但测出来的结果却差异甚大。
在AnandTech的测试中intel 13/14th 全面领先Ryzen 7000系
在Phoronix的测试中7950x3d却反将一军
目前工作上使用的软件是ANSYS Fluent,因此本文将会以这个软件做为测试主轴。但合法的
ANSYS软件一套要价数百万,只好跟公司借用借用,嘿嘿。
利用了下班时间跑了ANSYS Fluent的Benchmark Case做了一些测试,留个纪录想要抛砖引玉
2. 测试环境
A. 软件版本: ANSYS Fluent 23R2
B. Benchmark Case: ANSYS Fluent, External Flow Over an Aircraft Wing
(aircraft_2m)
C. 网格数量: 2m(200万)
D. 网格类型: Hexa(六面体)
E. 紊流模型: realizable k-eps turbulence
F. 求解器类型: Pressure based coupled solver, Green Gauss Node based, steady
G. 电脑配备:
CPU: Intel i7 13700 nonK
Cooler: Thermalright BA120
MB: ASUS B760-A WiFi D4
RAM: Kingston Fury DDR4-3200 32GBx2 @3466
SSD: ADATA S70 pro 2TB
Case: CM TD500 MESH V2
H. 环境温度24度C,观测HWinfo软件全测试无出现撞温度墙的状况。
I. 电源计画: 高效能
合法的ANSYS Fluent一次最多只能使用4核心运算,想另外加核心数上去就必须购买HPC(Hig
h Performance Computing)。
而这个HPC也是动辄百来万的东西,因此在这边只使用1个软件本体+1个HPC的License,总共
总共12核心下去做运算,我想在有限的核心数量下找出最佳的组合也比较符合预算有限的且
只能使用合法软件的单位。
3. 测试结果
必须要先做说明,我有找到原厂的电脑设定建议,里头是建议关掉超执行绪(Hyper-Thread,
因此刚开始测试都是关闭HT的状况,后来才想说要把HT打开测试看看。
以下是测试结果,橘框是P core:
A. 6P6E (no HT)
Simulation wall-clock time for 1800 iterations 4085 sec
6P6E是将HT关掉后,在Windows 11下的自动核心调度结果
进工作管理员看是有指定CPU亲和性在每个运作的核心上的
https://i.imgur.com/GadJ4lb.png
B. 8P4E (no HT)
Simulation wall-clock time for 1800 iterations 3920 sec
8P4E是我在工作管理员中手动将CPU亲和性调度到8个P核上的结果
https://i.imgur.com/3XH3Yia.png
C. 全默认 (自由调度)
Simulation wall-clock time for 1800 iterations 3630 sec
全默认状况下把HT重新打开,这时进工作管理员查看会发现CPU亲和性没有被指定
但从工作管理员上可以推断出应该是跑在12个P核的执行绪上
https://i.imgur.com/uVanIiv.png
D. 8P0E (no HT)
SSimulation wall-clock time for 1800 iterations 3683 sec
把小核跟HT都关了,软件设定8核心运算,只用8C8T下去跑,这个就没有特别截图了
E. 8P0E(有开HT,用12个执行绪在跑)
Simulation wall-clock time for 1800 iterations 3578 sec
关小核但开HT,看工作管理员,也有指定CPU亲和性在前12个执行绪上
https://i.imgur.com/65t7BYt.png
4. 总结
基本上可以将结果分为两群:
i. 有E核参加运算(A、B)
ii. 无E核参加运算(C、D、E)
https://i.imgur.com/5eo1FTG.png
其中i群内8P4E相较于6P6E快了4.2%,好像有些差别
ii群内8P0E无HT比默认慢了1.4%,8P0E有HT比默认快了1.5%,这应该可以被认为是误差
i群平均(4002.5s)相较于ii群平均(3630.3s)慢了10.3%
甚至可以从B跟D的比较中发现8P4E比8P0E还慢!!
我认为这可以归因于CFD的特性,CFD是一种吃重内存频宽的应用。
在消费级平台上只有双通道的内存频宽被P核和E核共享,结果就是没有让速度较快的P核
发挥全部的算力,进而导致整体计算时间拉长。
因为还没测试过AMD平台,所以不能说全大核的AMD平台就比较好。但可以得到的结论是:
算CFD完全没有买13900/K的必要,因为P核数量并没有增加。
以上结果供各位参考,如有关于购买CFD模拟用硬件设备也欢迎留下建议。

Links booklink

Contact Us: admin [ a t ] ucptt.com