数字化推动算力基础设施,算力作为各个行业信息系统运行的载体和引擎,受到了前所未有的重视。
今年2月,戴尔科技集团全新发布了新一代 Dell PowerEdge 服务器,覆盖主流型、GPU优化型、边缘优化型等8大细分品类,从而满足不同业务场景对算力的需求。
在本次测试中,益企研究院联合权威的计量科学研究中心和国家级法定计量技术机构——中国计量科学研究院,对Dell PowerEdge R760服务器进行了全方位的测试。
数据量的爆发式增长带来了算力需求的急剧增加,这让数据中心对处理器的性能也提出了更高的要求。Dell PowerEdge R760是一款2U机架式服务器,搭载了第四代英特尔®至强®可扩展处理器,在新一代PowerEdge服务器中的定位为高性能通用型,在性能、可扩展性等方面较为均衡。
Dell PowerEdge R760提供了两路处理器插槽,以及32条内存槽,属于满配。处理器和内存区域的布局也因此显得极其紧凑。
为了验证R760的实力,此次测试搭配了顶级的双路处理器,也就是第四代英特尔®至强®可扩展处理器中白金系列的8480+。
8480+拥有56个内核,基础频率2.0GHz,全核睿频3.0GHz,最高3.8GHz,拥有105MB L3 Cache,功耗350W。测试表明,R760的默认散热配置可以完全满足这一对顶级处理器的散热要求。
着眼客户应用场景,戴尔在服务器架构设计进行了创新。Dell PowerEdge R760为后窗提供了4组PCIe Riser用于扩展标准PCIe卡。其中,两侧的Riser(编号分别为1、4)为PCIe 5.0接口,中间的两组Riser(上下叠放)为PCIe 4.0接口。
从布局上看,高性能输出的GPU卡等设备置于机箱两侧,既分别接近电源(减少线损),散热条件也比较宽裕;而对带宽要求不那么高的设备(如主流网卡、推理卡、视频加速、存储控制器等)使用主流的PCIe 4.0接口,合理控制成本,安装密度也可以较大。
Dell PowerEdge R760的导风罩设计也匹配了这种思路,中部的气流并非全部直通后窗,而是分流一部分给两侧。从导风罩的后向视角可以看到,中部上层的风道入口是故意收窄的,把进风量留给了左右两侧的PCIe 5.0 Riser部分。
Dell PowerEdge R760右侧电源与Riser2之间预留了出入液管道布放通道。换句话说就是:戴尔已经为R760做好了部署冷板式液冷的准备,可以充分释放新一代处理器、GPU等的性能。
传统服务器如果想改造为冷板式液冷,通常需要牺牲至少一个PCIe扩展槽的的空间走管路,而Dell PowerEdge R760不再面临这种困扰。
与愈发昂贵的制造工艺相比,内存墙的问题可能更让人头疼——处理器内核数量的增长明显快于内存带宽的增长。所幸英特尔®至强®可扩展处理器用上了DDR5内存,换下了已是“三朝元老”的DDR4。
那么新一代平台上内存的表现如何呢?益企研究院在不同环境下进行了多次测试。
作为参考,益企研究院用实验室中的第三代英特尔®至强®可扩展处理器跑了同样的测试。双路平台,16通道DDR4 2933的内存带宽为307.66 GB/s,约为理论值的84%。
另外,8480+的内存带宽已经接近上一代处理器的L3 Cache带宽了。为了匹配内存带宽的长足进步,英特尔®至强®可扩展处理器的L3 Cache不但容量爆增,带宽也增长到了上一代处理器的约2.5倍。
在延迟方面,8480+的L1、L2 Cache延迟明显优于第三代英特尔®至强®可扩展处理器,这些主要来源于微架构的改进。譬如这一代的Golden Cove架构内核将每个周期的可能负载数量从上一代的2个增加到3个;L1D 填充缓冲区从 12 个增加到 16 个;L1 DTLB已经从64个条目增加到96个条目等。
接下来,益企研究院在CentOS下用MLC、Stream进行了测试。除了内存带宽和延迟的测试,我们还特意给Dell PowerEdge R760增加了逐核压力递增测试。
从测试结果看来,搭载第四代英特尔®至强®可扩展处理器的Dell PowerEdge R760在通过Chiplet技术大幅提升核数的同时,不但保持了低延迟的相对优势,效率还有所提升。
在判读数据前需要指出的是,目前益企研究院使用的MLC及脚本在特定的几个内核出现数据异常,鉴于两代Xeon处理器都会在同样的内核数(如25~28)均输出为0,可以排除硬件的架构问题,请忽略下图中的两处各4内核的异常点。
从图中可以看到:随着物理内核负载逐步增加,PowerEdge R760搭载8480+的内存带宽开始近乎于线性的增加。当内核负载增加到56个(恰好是单路处理器的内核数量)时,内存带宽已经达到500GB/s左右,相当于峰值的92%。
然后,在64~70核时,内存带宽便达到顶点。以往的双路平台并不会这么快让内存带宽达峰,譬如参考的第三代英特尔®至强®可扩展处理器的内存带宽会分两阶段递增,在调用的内核少于一个插槽的数量时,另一插槽的内存带宽没有带来什么助益。
通过实测可见,DDR5、PCIe 5.0等这些技术大幅提升了Dell PowerEdge R760的综合能力,为内存密集型和IO密集型场景提供更高价值,具有理想的 CPU、I/O 和存储性能选项,可实现横向扩展,能够处理要求苛刻的工作负载和应用程序,例如数据仓库、电子商务、数据库等业务场景。
第四代英特尔®至强®可扩展处理器采用系统级设计方法,在CPU芯片架构中内置专用的工作负载加速器,以提升性能和效率。为此,益企研究院在Dell PowerEdge R760这台服务器上测试了新的加速器技术,考察到底能带来哪些性能提升。
此前益企研究院曾专门针对AMX加速器进行解析。AMX计算单元支持8bit的整形数据(int8)和16bit的浮点数据(bf16),可以对不同的工作负载进行有效的优化。例如,在对AI模型进行训练的时候,为了保证模型的数据精度,往往需要bf16以上的数据精度进行运算。而在日常生产环境中,推理用的频次要远远高于训练的次数,而在AI模型的推理过程中,由于运算量相对较小,就可以采用int8的数据精度来提高效率。
通过考察TensorFlow ResNet50推理,可以展现第四代英特尔®至强®可扩展处理器的真正实力。在没有启用AMX之前,8480+的推理性能相对上一代处理器的提升主要得益于内核规模的增加。而一旦有了AMX加持,吞吐量的提升幅度就会比物理内核要大得多:在同是使用8480+的情况下,指定精度bf16的输出能力接近AVX-512(fp32)的4倍,int8更是接近8倍。
由于支持int8和bf16两种计算精度,这也就意味搭载第四代英特尔®至强®可扩展处理器的Dell PowerEdge R760将广泛的AI工作负载的推理和训练性能提升到了新的高度。AMX加速器在OCR场景、以及生成式模型、大语言模型中都可以应用。
对于用户来说,除了需要持续加速的性能还需要优先考虑环境影响,其一是环境对服务器的影响,另一方面是服务器对环境的影响。其中,复杂多变的供电等环境对服务器的工作状态和寿命构成了严峻的挑战。
为此益企研究院联合权威的计量科学研究中心和国家级法定计量技术机构——中国计量科学研究院,对Dell PowerEdge R760进行的严格的测试认证。
在这次测试认证中,DellPowerEdge R760服务器顺利通过了中国计量科学研究院国家级实验室多项标准化测试,在诸多测试项目中表现优异,并在5个大项中获得认证证书。包括:服务器电快速瞬变脉冲群抗扰度认证、工频磁场抗扰度认证、静电放电认证、服务器连续射频骚扰抗扰度认证和浪涌(冲击)抗扰度认证。
这些认证也印证了新一代 Dell PowerEdge 服务器在电磁兼容、可靠性等方面优异的品质。
结合益企研究院的性能测试,可以看见,戴尔的新一代PowerEdge服务器出色的性能和可扩展性、优秀的AI加速,可靠性,可以帮助企业在不断激烈的竞争中满足多种应用场景的需求,让用户在部署数据库、AI和其他现代工作负载时能够游刃有余。
同时,戴尔致力于推动绿色数据中心,发展可持续性基础架构,通过高效节能、服务器优化等技术创新,为客户真正创造价值。