探秘女生行业 (探秘女工程师)

探秘Nvidia开创性的DGX-GB200机架系统背后的创新

Nvidia的新旗舰超级服务器DGX GB200在GTC展会上的照片在社交媒体上引起了积极的反响，因为它为人工智能带来了强大的计算能力。DGX GB200，也称为NVL72机架服务器，可配置高达576个GPU在一个NVLink域内。此外，DGX系统可以通过采用InfiniBand网络进行长距离通信的SuperPOD配置，扩展至数以万计的其他GB200系统。

HPCwire媒体采访了Nvidia DGX系统部门的副总裁兼总经理Charlie Boyle，以了解该系统的设计和基础技术。以下是采访的编辑记录。新的DGX系统是什么?

1）新的DGX系统是什么?在2016年，当我们在GTC推出了最初的平台时，我们引入了全球首次见到的东西。那是我们首次使用NVLink、GPU和SXM。我们已经经历了多个DGX系统的世代，从Pascal到Volta再到Hopper，显然在全球范围内与客户和各种企业形式都取得了非常成功的成果。

我们宣布了一种新类型的系统，就像八年前我们宣布了一种新类型的系统一样。这个新系统是一个机架级计算机，我们称之为DGX GB200系统。它有72个Blackwell和36个Grace GPU，全部集成在一个NVLink域内。

2）自从最初推出以来，原始的DGX一直是一个单个机箱内的NVLink域。DGX-2有段时间是提供一个16路变体，但最终，我们又回到了8路域。

随着人工智能模型变得越来越复杂，特别是采用了新类型的模型——称为“专家混合模型”的模型，其中多个人工智能模型共同合作以回答单个问题或生成单个输出，我们遇到了一个实际的限制。在MLPerf的案例中，其中一个限制因素是非常大的模型大约有60%的时间花在了在模型内部相互通信上。我们意识到，如果我们构建一个更大的NVLink域，它将缓解这个通信问题，因为NVLink比最快的InfiniBand还要快得多。

通过这个新系统，在一个机架上，客户将获得72个GPU、36个CPU和9个NVSwitch单元，所有这些都作为单个的DGX单元交付给客户。新的机架系统也采用液冷技术，使其极其节能，并且可以使用环境加上进水以节省数据中心的能源。

3）GB200系统的扩展性如何?单个系统，我们称之为DGX GB200系统或NVL-72，可以与多个机架无缝连接，实现在DGX SuperPOD配置中的GPU数量扩展至数万个。

SuperPOD产品是Nvidia提供的一种全面解决方案。我们负责整个过程，从构建和发运系统到客户端的安装和进行客户验收测试。

4）新系统会改变CUDA程序员为Nvidia系统编写代码的方式吗？NVL72是新系统中更常见的配置，其中所有组件都设计成能够无缝协同工作。其中一个核心库是NCCL（NVIDIA集体通信库），它在过去几年中变得非常重要。我们不断改进NCCL，增强它对系统中不同元素的理解。

在这个新系统中，作为CUDA程序员或高级程序员，您可以从任何应用程序访问所有GPU内存。开箱即用，与上一代相比，Hopper的训练速度提高了4倍以上，推断速度提高了30倍以上。最好的部分是，它运行与A100上相同的所有软件，而无需任何特殊的编程语义来发挥新系统的性能。

我们在软件方面的一个重要举措是，如果用户不需要，就不会向他们暴露这种复杂性。当然，如果需要，您仍然可以直接以更低的级别进行编程。但是，您也可以运行一个简单的[PyTorch]命令...系统将自动将所有工作分配到机架中运行的所有OS镜像上，以确保将工作放置在最佳位置以完成任务。

我们已经从软件中移除了许多复杂性，考虑到通常购买大量DGX系统的企业正在越来越多地涉足这一领域。他们拥有数据科学家和想要运行AI的人，但并不一定有人想要直接在低级别编程到芯片上。显然，我们有一些客户在这样做，我们完全为他们提供了这项技术。

5）云服务提供商采用了与您的系统类似的多路DGX配置,是这样运作的吗？这正是我们的DGX的目标。我们将其构建为设计参考，并在内部使用，但我们也向所有合作伙伴广泛分享这些信息。

许多云服务提供商选择基于这一参考设计的GB200 GPU，因为它简化了它们的研发工作，节省了时间和金钱。

他们查看参考设计，并可能根据自己的特定需求进行定制，例如调整其高度、修改管道，并使用自己的系统管理解决方案。这种方法可以提供灵活性和定制部署。我们已向所有合作伙伴发布了GB200架构，他们都在基于此设计开发系统。

原文翻译自：Q&A with Nvidia's Chief of DGX Systems on the DGX-GB200 Rack-scale System (hpcwire.com)

探秘女生行业,探秘女性创业者