近日,国外权威的服务器专业网站ServeTheHome(简称STH)完成了对浪潮高端AI服务器NF5488M5的首发评测,称“浪潮NF5488M5是一款真正独一无二的产品”。凭借优秀的外观设计、超强的性能表现、卓越的散热设计、独特的管理特性等,NF5488M5获得了9.6分的高分评价,一举成为AI服务器的8卡“机王”。

如下是完整评测报告第三部分其他机箱印象和第四部分拓扑结构:
浪潮NF5488M5是一款真正独一无二的产品。尽管许多供应商,都可以宣称拥有搭载8块NVIDIA Tesla V100的系统,但NF5488M5可能是这些系统中,您可以买到的最高端产品。它不仅搭载了8块Tesla V100 SXM3且支持“Volta Next” GPU,TDP达350W以上,并且结构方面也有一定的特别之处。这些GPU利用NVSwitch技术互相连接,这就意味着,每两个GPU之间都有300GB/s的P2P 通信带宽。
在本测评中,我们会比平常多花一些时间讨论硬件,以及它与市场上其他产品完全不同的独特设计。截至2019年4月,浪潮在中国的AI服务器市场份额稳居 51% 以上,而这款产品正是帮助浪潮继续扩大市场份额的创新设计之一。

我们想要多介绍几个与服务器机箱相关的内容。首先,浪潮在机箱下设置了中英文服务指南,非常人性化。对于第一次将机箱拆开的用户来说,浪潮 NF5488M5是一个相当复杂的系统,因此这个打印版服务器拆解向导就成为了好帮手。

侧面贴上了警告标签,写明服务器的重量超过60千克。作为参考,仅GPU及托盘部分的重量就超过23千克。

要移动设备,浪潮建议四个人一起搬运,并且使用把手。我们将该设备搬出浪潮硅谷办公室时,用了四个人搬运。虽然各数据中心的实际情况不同,但我们建议,在安装这些系统时使用服务器升降机。大多数数据中心都有这类工具,而对于重量如此庞大的节点,这些工具的重要性就更加显而易见了。

在训练服务器中,拓扑结构非常重要。在测试系统中,我们使用的是全新第二代Intel Xeon 可扩展 Platinum 8276 CPU。

每块CPU都有一组GPU、存储、Infiniband卡和连接到它的其他I/O。有了这么多设备,您可能需要点开这张图来仔细查看。

就NVIDIA拓扑而言,您可以看到NVIDIA GPU和Mellanox NIC。该拓扑架构显示,每个GPU有6个NVLink Port。还有PCIe和UPI遍历路线。总的来说,您可以看到四个Mellanox Infiniband卡以及它们与系统的连接。

我们可以看到Balance拓扑结构。

在NVLink状态中,我们可以看到八个GPU,每个拥有了六个NVLink Port。我们还可以看到六个NVSwitch,每个有八条链路。每个GPU和每个NVSwitch之间都建立了链接。因此,如果要进行GPU到GPU传输,我们将通过HGX-2基板上的每个NV Switch推送六分之一的传输。

在16 GPU HGX-2或DGX-2的系统上,您会看到更多的交换机端口被用于通过NVBridge上行链路链接到其他GPU基板上的NVSwitch。
与我们在DGX-1/HGX-1类系统中看到的直连式NVLink相比,这些NVSwitch的加入使得其架构更加稳健,任意两颗GPU间P2P通信宽带可达300GB/s。
下面,我们将了解一下管理方面,以及这种解决方案背后的一些背景知识。