ANSYS & Fluent性能基准测试简介
文/林磊
ANSYS&Fluent性能基准测试算题是ANSYS公司发布的,用来评测和比较ANSYS和Fluent算例在不同软硬件平台上(CPU、内存、I/O、互联、MPI和文件系统等)的性能。不同于通用的linpack硬件基准测试,ANSYS&Fluent性能基准测试对CAE应用来说,具有更实际的意义,也是广大CAE用户在采购硬件时所关心的。
为了让众多的安世亚太用户了解ANSYS&Fluent性能基准测试及目前主流的计算机硬件在CAE求解中的性能及特点,文章简要介绍了ANSYS公司于2008年2月发布的ANSYS 11.0 sp1及Fluent 6.3.26求解器的性能基准测试算例及其测试方法;并对ANSYS公司已经发布的部分测试结果作一些分析。用户也可以根据我们提供的测试方法亲自动手在自己的平台上进行测试,并和网络上发布的结果进行对比。
ANSYS 11.0 SP1基准测试
算例简介
ANSYS
11.0
SP1基准测试集分为两部
分:bm集用来在SMP系统上测试ANSYS,有8个算例(如表1);bmd集既可以在SMP机器、也可以在DMP系统上测试DANSYS,有7个算例(如表2)。
测试方法
●准备ANSYS 11.0 SP1相应测试平台的软件安装包及license,设置PATH环境变量。
●测试算例下载地址:FTP://ftp.ansys.com/pub/devsvcs/benchmarks/bench110。
52
精益研发 ┃ 2008 ┃ 夏季刊
表1
作业图示自由度分析类型求解器性能说明中等规模作业,在bm-185万静力sparse64位大于16GB内存系统应该以in-core方式运行。测试表明CPu和I/O性能平衡的重要性及大内存bm-276万谐波block 的好处。加速比Lanczos受限于因子分解(factorization)时间,但仍有很好的扩展性。测试CPu和I/O的bm-320万非线性sparse 性能。表明在大内存系统能有效使用系统缓存。典型的小作业,表明bm-49万电磁sparse 应该以in-core的方式运行以提高性能。另一个小作业,应该在任何系统都有bm-5NA热jcg很好的效率。衡量迭代求解器性能。很好地测试内存带宽性能。CPu和I/O性能测试。应该在64位大于4GB内存系统以bm-6NA25万静力sparse in-core的方式运行。sparse求解器速率本质上代表了DGEMM矩阵乘的性能。测试很好地表明I/bm-7NA75万静力sparseO性能和大内存的价值。In-core需要16GB的内存。bm-8NA5百万静力pcg很好地测试pcg迭代求解器和内存带宽。●解压SP1_BENCH110.tar.gz 文件。●bmd测试集放在解压后文件夹bench_bmd中;bm测试集放在文件夹bench_bm中。
●编辑COMPUTER.dat文件。例如:COMPANY------------>HPMACHINE MODEL----->DL580PROCESSOR TYPE, SPEED->Intel ZEON 3.4 Ghz
OPERATING SYSTEM-->RH 4.0SYSTEM MEMORY (GB) --->64DISK MODEL---------->diskNUMBER OF PROCESSORS-->8USE MPICH------------>no●编辑MACHINES.dat文件。例如:Number of Machines------->1MAXNP --------------->8INCREMENT ----------->-2#INCREMENT LIST -------> 2 METHOD ------>Round RobinCONFIG ------------->DMPMACHINE MAX CORES->node1 8#MACHINE MAX CORES ->MACH2 4INCREMENT设为-2,表示用1,2, 4,8所有2的指数次方个核来运行算例,直到系统提供的最大核数。METHOD设为Round Robin(轮询调度算法,在多盒系统该算法有优势)。详细benchmark参数等说明请查阅测试算例中说明文件——ANSYS_Benchmarks_Guide.doc。
●运行脚本bench.sh(LINUX或Unix) 或者bench.bat(Windows)。
●测试结果写在SUMMARY_bmd.txt或者SUMMARY_bm.txt中。Summary-bmd.txt例子,如表3所示。
NP列出使用的核数,CPU和WALL分别列出使用的CPU时间和墙上时间。
HPC Frontier ┃ HPC前沿
表2
作业图示模型自由分析类度型求解器性能说明bmd-1 中等大小作万向节40万静力dsparse业,应该以in-core方式运行。由于使用jcg求bmd-2油箱结构100万静力jcg解器,有较好的并行性。使用Solid92实体单元,Workbench的bmd-3传动轮盘200万静力pcg典型分析问题。良好的并行性能。使用MSAVE,ON。测试表明I/O与CPu性能一样重要,以及大内bmd-4悬架300万静力dsparse存求解的优势。内存受限时,dsparse求解性能会下降。迭代求解器求解bmd-5块体/孔580万静力pcg大作业有良好的并行性。使用MSAVE,ON。bmd-6机翼100万静力 利用pcg求解器结构lanpcg组合矩阵来最大化加速比。使用solid45实体单元,不使用MSAVE,ON。bmd-7机翼500万静力 测试内存带宽结构pcg性能,由于稀疏矩阵/向量内核,预期mflop rate会比较低。表3
精益研发 ┃ 2008 ┃ 夏季刊53
HPC前沿 ┃ HPC Frontier
ANSYS网站发布的测试结果
ANSYS公司在www.ansys.com上发布了在以下四款处理器上的测试结果。使用RH 4.0操作系统。
●Intel Xeon 5472 (12MB,3.0GHz,1600MHz,4 Core,45nm)●Intel Xeon 5365 (8MB,3.0GHz,1333MHz,4 Core,65nm)●Intel Xeon 5355 (8MB,2.66GHz,1333MHz,4 Core,65nm)●Intel Xeon 5160 (4MB,3.0GHz,1333MHz,2 Core,65nm)针对前三款处理器分别测试了1、2、4和8核的计算效率,Intel Xeon5160测试了1,2和4核的计算效率。表4给出了以Intel Xeon 5160上4核计算速度为单位,其他三款处理器4核和8核相对求解速度。
从表4所示数据来看,最新的Intel Xeon 5472的性能是最优的,主要得益于其1600MHz的前端总线、45nm技术和12M的大缓存。Intel Xeon 5472(或主频更高的5482)的单核性能或许是目前市面上性能最高的X86芯片,但ANSYS bmd算例8核加速比最高不到4,可能是其FSB的构架制约了加速比的提升。期望Intel新的QPI技术带来更大的加速比。同时我们还期待AMD Barcelona和IBM Power 6的测试结果。另外ANSYS算例对高性能计算系统的内存和I/O要求很高,尤其是大算例,除
表4
type5472547253655365535553555160core4 core8 core4 core8 core4 core8 core4 corebmd-11.11 1.59 1.03 1.35 0.94 1.27 1.00 bmd-21.28 1.45 1.09 1.05 1.05 1.12 1.00 bmd-31.14 1.41 1.01 1.21 0.94 1.15 1.00 表5
了配置高性能的CPU以外,还需要综合考虑硬盘I/O的性能和内存大小和带宽等因素。
Fluent 6.3.26基准测试
算例简介
Fluent 6.3.26最新测试算例包含7个算例,5张DVD,其中最大算例truck_111m占了3张,大约12G,推荐在总内存64GB以上的系统上测试该算例;truck_poly_14m占1张;其他5个算例合起来占1张(如表5)。
测试方法
●准备Fluent 6.3.26相应测试平台的软件安装包及license,设置PATH环境变量。
●准备测试算例。
●解压5张DVD中的测试算例,拷贝到fluent安装目录Flu-ent.Inc下。
●创建工作目录,测试命令:
fluentbench.pl eddy_417k -t8 -t4 -t2 -t1 -mpi=intel运行算例eddy_417k测试,分别使用8,4,2和1个核,使
bmd-41.03 0.83 0.92 0.89 0.90 0.84 1.00 bmd-51.11 1.48 0.99 1.27 0.92 1.19 1.00 bmd-61.26 1.37 1.01 1.04 0.99 1.02 1.00 bmd-71.18 1.28 1.00 1.01 0.96 1.00 1.00 名字eddy_417kturbo_500kaircraft_2msedan_4mtruck_14mtruck_poly_14m truck_111m 54
精益研发 ┃ 2008 ┃ 夏季刊
单元数417k500k1.8m3.6m14m13.6m111m模型&求解器3d,ke,seg3d,spallart-allmaras,coupimp3d,rke,coup-imp3d,ke,seg, hybrid3d,des,seg3d,des,seg3d,des,seg 描述涡耗散反应流单级涡轮机流航天器机翼外流轿车外气动学卡车车身外流卡车车身外流卡车车身外流HPC Frontier ┃ HPC前沿
用intel MPI。
●Window系统还可以使用launcher来运行测试,把Benchmark选项勾上。
●测试输出.out和.trn文件,其中Total wall time值是算例求解消耗的墙上时间。
的8核性能比较也有类似的结论。
MELLANOX_COLFAX CX1254 (OPTERON_4CORE,2000,RHEL5.1,CONNECTX_IB)和MELLANOX_COLFAX CX1254 (OPTERON_4CORE,2000,RHEL5.1,GIGE)16核以上效率相差主要原因是IB互联比以太网互联优的缘故,eddy-417k的56核性能相差将近一倍,大算例差距要小一些。可见高速互联的重要性。
SUN X6250(INTEL64_2CORE,3330,SLES10,IB)和HP BL460 (INTEL64_2CORE,3000,RHEL4,IB_VOLTAIRE)的16核性能差不多。后者比前者还好一些。SUN X6250使用的是X5260 45nm,主频为3.33GHz的芯片,而HP
BL460使用的是65nm,主频为
Fluent网站发布的测试结果
表6是www.fluent.com网站发布的测试结果。其中Plat-form列给出硬件名称,以及所使用的处理器类型、主频、操作系统和互联方式;Core列给出测试使用的核数;Rating的含义是24小时能够求解算例的次数。
HP BL460(INTEL64_4CORE,3200,RHEL5,IB)和MEL-LANOX_COLFAX CX1254 (OPTERON_4CORE,2000,RHEL5.1,CONNECTX_IB)的32核eddy-417k算例性能相差将近一倍,其他几个算例却比较接近,后者sedan_4m算例反而要快,Opteron 4核的处理器主频虽然只有2.0GHz,比Intel 4核的Xeon 5482 3.2GHz要慢不少,在小算例求解要慢,但是算例的规模变大后,Opteron的扩展性却非常好,估计主要跟AMD的超传输技术有关。INTEL WHITEBOX (INTEL64_HARPERTOWN_4CORE,3000,RHEL4)和MELLANOX_COLFAX CX1254 (OPTERON_4CORE,2000,RHEL5.1,GIGE)
3.0GHz的5160芯片。两种芯片都是双核的,可见双核45nm的性能提升并不多,而Intel 四核45nm的5472比四核65nm的5365性能提升不少(根据ANSYS 11.0 SP1 bmd算例的测试结果)。
结束语
文章评论仅代表个人观点。安世亚太公司不仅提供一流的CAE软件,同时也积累了大量CAE HPC应用经验,还为广大用户提供CAE HPC相关咨询和集成方案,以满足日益增长的CAE HPC需求。欢迎用户就CAE硬件选用、配置和方案咨询安世亚太各地分公司。
图1
图2
精益研发 ┃ 2008 ┃ 夏季刊55
HPC前沿 ┃ HPC Frontier
表6
PlatformCoreRatingeddy-417kturbo-500kaircraft_2msedan_4mtruck_14mtruck_poly_14mserial109.7441.397.263.76.38.3SuN X6250 1109.2440.496.665.278.3(INTEL64_2CORE,2208.9823.1180.5122.514.616.144161590.4354.1247.729.931.93330,SLES10,IB)8780.82805.2577.1391.955.957.3161095.83744.3682.9447.278.974.6 HP BL460 8532.12000412.1283.1 (INTEL64_2CORE,161012.93789.5787.8554.8 32129268301536.71109.5 3000,RHEL4,IB_VOLTAIRE)641403.710441.12229.72047.4 serial104.9415.483.358.82.73.41104.241287.660.633.42180.2737.2156.796.65.76.3HP BL460 4346.71206.7245.3160.11010.3(INTEL64_4CORE,8460.11527.9281.1177.412.512.63200,RHEL5,IB)161111.33150.4559.5357.924.525.1322238.36557.91114.1742.349.448.9644336.312255.31810.41489.7100.896.31285979.26084.52923.92403.3204.6188152.5230.547.838.7 280.3452.797.677.2 4184.5795180.2144.6 MELLANOX_COLFAXCX12548320.51398.1289249.8 (OPTERON_4CORE,2000,16551.32700574.6488.4 24713.34104.5794.5692.6 RHEL5.1,CONNECTX_IB)321047.95181.41002918.9 401191.36182.51207.11146.3 481364.470821434.61273.9 561490.37908.51598.51503.3 152.3230.748.135.2 280.3452.797.973.3 4184.4795.8180.9136.4 MELLANOX_COLFAX 8320.51399.8292.4245.1 CX1254 (OPTERON_4CORE,16404.92335.1497.3420.2 24379.42921.4611.6580.2 2000,RHEL5.1,GIGE)32516.73269.6715.5718.1 40528.13469.9794.3835 48556.13748.4903.5931.8 56618.24009.3957.61013.8 INTEL WHITEBOX serial96.8385.28554.45.77(INTEL64HARPERTOWN_195.9382.684.255.96.26.94CORE,3000,RHEL4)2183.1741.3162.9109.612.413.48491.41685321207.232.133.256精益研发 ┃ 2008 ┃ 夏季刊
因篇幅问题不能全部显示,请点此查看更多更全内容