[测试] I家E core在Ansys Fluent中的效能表现 xiaotee PTT批踢踢实业坊

[测试] I家E core在Ansys Fluent中的效能表现

楼主: xiaotee (晓薙) 2024-06-21 22:39:19

懒人包：没有用
部落格好读版：
https://soulattic.blogspot.com/2024/06/intel-13th-cpuansys-fluent.html
1. 前言
由于工作上时常需要使用CFD(计算流体力学)软件来模拟，加上对电脑硬件有些认识，成了
成了本次做这一些小测试的契机。
念研究所的时候12代刚上，当时有时间可以进行测试，实验室的设备费却已经干了，因此一
直没能买有大小核设计的CPU来进行一些CFD运算的测试。我看到的大多说法都说大小核
设计有助于计算密集型的生产力应用，例如渲染、剪片转档等等，也确实在Cinebench之类
的跑分软件中有十分强悍的表现。
网络上国内外的评测都鲜少提到CFD软件的测试成绩，只有少数评测网站会测试开源的CFD软
体OpenFOAM，但测出来的结果却差异甚大。
在AnandTech的测试中intel 13/14th 全面领先Ryzen 7000系
在Phoronix的测试中7950x3d却反将一军
目前工作上使用的软件是ANSYS Fluent，因此本文将会以这个软件做为测试主轴。但合法的
ANSYS软件一套要价数百万，只好跟公司借用借用，嘿嘿。
利用了下班时间跑了ANSYS Fluent的Benchmark Case做了一些测试，留个纪录想要抛砖引玉
2. 测试环境
A. 软件版本: ANSYS Fluent 23R2
B. Benchmark Case: ANSYS Fluent, External Flow Over an Aircraft Wing
(aircraft_2m)
C. 网格数量: 2m(200万)
D. 网格类型: Hexa(六面体)
E. 紊流模型: realizable k-eps turbulence
F. 求解器类型: Pressure based coupled solver, Green Gauss Node based, steady
G. 电脑配备:
CPU: Intel i7 13700 nonK
Cooler: Thermalright BA120
MB: ASUS B760-A WiFi D4
RAM: Kingston Fury DDR4-3200 32GBx2 @3466
SSD: ADATA S70 pro 2TB
Case: CM TD500 MESH V2
H. 环境温度24度C，观测HWinfo软件全测试无出现撞温度墙的状况。
I. 电源计画: 高效能
合法的ANSYS Fluent一次最多只能使用4核心运算，想另外加核心数上去就必须购买HPC(Hig
h Performance Computing)。
而这个HPC也是动辄百来万的东西，因此在这边只使用1个软件本体+1个HPC的License，总共
总共12核心下去做运算，我想在有限的核心数量下找出最佳的组合也比较符合预算有限的且
只能使用合法软件的单位。
3. 测试结果
必须要先做说明，我有找到原厂的电脑设定建议，里头是建议关掉超执行绪(Hyper-Thread,
因此刚开始测试都是关闭HT的状况，后来才想说要把HT打开测试看看。
以下是测试结果，橘框是P core：
A. 6P6E (no HT)
Simulation wall-clock time for 1800 iterations 4085 sec
6P6E是将HT关掉后，在Windows 11下的自动核心调度结果
进工作管理员看是有指定CPU亲和性在每个运作的核心上的
https://i.imgur.com/GadJ4lb.png
B. 8P4E (no HT)
Simulation wall-clock time for 1800 iterations 3920 sec
8P4E是我在工作管理员中手动将CPU亲和性调度到8个P核上的结果
https://i.imgur.com/3XH3Yia.png
C. 全默认 (自由调度)
Simulation wall-clock time for 1800 iterations 3630 sec
全默认状况下把HT重新打开，这时进工作管理员查看会发现CPU亲和性没有被指定
但从工作管理员上可以推断出应该是跑在12个P核的执行绪上
https://i.imgur.com/uVanIiv.png
D. 8P0E (no HT)
SSimulation wall-clock time for 1800 iterations 3683 sec
把小核跟HT都关了，软件设定8核心运算，只用8C8T下去跑，这个就没有特别截图了
E. 8P0E(有开HT，用12个执行绪在跑)
Simulation wall-clock time for 1800 iterations 3578 sec
关小核但开HT，看工作管理员，也有指定CPU亲和性在前12个执行绪上
https://i.imgur.com/65t7BYt.png
4. 总结
基本上可以将结果分为两群:
i. 有E核参加运算(A、B)
ii. 无E核参加运算(C、D、E)
https://i.imgur.com/5eo1FTG.png
其中i群内8P4E相较于6P6E快了4.2%，好像有些差别
ii群内8P0E无HT比默认慢了1.4%，8P0E有HT比默认快了1.5%，这应该可以被认为是误差
i群平均(4002.5s)相较于ii群平均(3630.3s)慢了10.3%
甚至可以从B跟D的比较中发现8P4E比8P0E还慢！！
我认为这可以归因于CFD的特性，CFD是一种吃重内存频宽的应用。
在消费级平台上只有双通道的内存频宽被P核和E核共享，结果就是没有让速度较快的P核
发挥全部的算力，进而导致整体计算时间拉长。
因为还没测试过AMD平台，所以不能说全大核的AMD平台就比较好。但可以得到的结论是：
算CFD完全没有买13900/K的必要，因为P核数量并没有增加。
以上结果供各位参考，如有关于购买CFD模拟用硬件设备也欢迎留下建议。

继续阅读

[菜单] 25k绘图文书机YY05 [菜单] 25K极轻度游戏机aimgel [菜单] 30k 看盘与轻度影音娱乐kinaco [请益] 华硕1660S风扇坏掉请益horizon01 [情报] Fractal Design台湾代理更换为乐维科技E7lijah [开箱] 小卡4输出，技嘉 GeForce RTX3050 LP 6Gvostro [开箱] COUGAR MX600 RGB WHITEwolflsi [请益] 桌机没有Type-C孔解决推荐aall2468 [菜单] 50k D4游戏机含萤幕prairiefire [菜单] 42k 游戏影音机VeryGoood