探秘女生行业 (探秘女工程师)

探秘Nvidia开创性的DGX-GB200机架系统背后的创新

Nvidia的新旗舰超级服务器DGX GB200在GTC展会上的照片在社交媒体上引起了积极的反响,因为它为人工智能带来了强大的计算能力。DGX GB200,也称为NVL72机架服务器,可配置高达576个GPU在一个NVLink域内。此外,DGX系统可以通过采用InfiniBand网络进行长距离通信的SuperPOD配置,扩展至数以万计的其他GB200系统。

HPCwire媒体采访了Nvidia DGX系统部门的副总裁兼总经理Charlie Boyle,以了解该系统的设计和基础技术。以下是采访的编辑记录。新的DGX系统是什么?

1)新的DGX系统是什么?在2016年,当我们在GTC推出了最初的平台时,我们引入了全球首次见到的东西。那是我们首次使用NVLink、GPU和SXM。我们已经经历了多个DGX系统的世代,从Pascal到Volta再到Hopper,显然在全球范围内与客户和各种企业形式都取得了非常成功的成果。

我们宣布了一种新类型的系统,就像八年前我们宣布了一种新类型的系统一样。这个新系统是一个机架级计算机,我们称之为DGX GB200系统。它有72个Blackwell和36个Grace GPU,全部集成在一个NVLink域内。

2)自从最初推出以来,原始的DGX一直是一个单个机箱内的NVLink域。DGX-2有段时间是提供一个16路变体,但最终,我们又回到了8路域。

随着人工智能模型变得越来越复杂,特别是采用了新类型的模型——称为“专家混合模型”的模型,其中多个人工智能模型共同合作以回答单个问题或生成单个输出,我们遇到了一个实际的限制。在MLPerf的案例中,其中一个限制因素是非常大的模型大约有60%的时间花在了在模型内部相互通信上。我们意识到,如果我们构建一个更大的NVLink域,它将缓解这个通信问题,因为NVLink比最快的InfiniBand还要快得多。

通过这个新系统,在一个机架上,客户将获得72个GPU、36个CPU和9个NVSwitch单元,所有这些都作为单个的DGX单元交付给客户。新的机架系统也采用液冷技术,使其极其节能,并且可以使用环境加上进水以节省数据中心的能源。

3)GB200系统的扩展性如何?单个系统,我们称之为DGX GB200系统或NVL-72,可以与多个机架无缝连接,实现在DGX SuperPOD配置中的GPU数量扩展至数万个。

SuperPOD产品是Nvidia提供的一种全面解决方案。我们负责整个过程,从构建和发运系统到客户端的安装和进行客户验收测试。

4)新系统会改变CUDA程序员为Nvidia系统编写代码的方式吗?NVL72是新系统中更常见的配置,其中所有组件都设计成能够无缝协同工作。其中一个核心库是NCCL(NVIDIA集体通信库),它在过去几年中变得非常重要。我们不断改进NCCL,增强它对系统中不同元素的理解。

在这个新系统中,作为CUDA程序员或高级程序员,您可以从任何应用程序访问所有GPU内存。开箱即用,与上一代相比,Hopper的训练速度提高了4倍以上,推断速度提高了30倍以上。最好的部分是,它运行与A100上相同的所有软件,而无需任何特殊的编程语义来发挥新系统的性能。

我们在软件方面的一个重要举措是,如果用户不需要,就不会向他们暴露这种复杂性。当然,如果需要,您仍然可以直接以更低的级别进行编程。但是,您也可以运行一个简单的[PyTorch]命令...系统将自动将所有工作分配到机架中运行的所有OS镜像上,以确保将工作放置在最佳位置以完成任务。

我们已经从软件中移除了许多复杂性,考虑到通常购买大量DGX系统的企业正在越来越多地涉足这一领域。他们拥有数据科学家和想要运行AI的人,但并不一定有人想要直接在低级别编程到芯片上。显然,我们有一些客户在这样做,我们完全为他们提供了这项技术。

5)云服务提供商采用了与您的系统类似的多路DGX配置,是这样运作的吗?这正是我们的DGX的目标。我们将其构建为设计参考,并在内部使用,但我们也向所有合作伙伴广泛分享这些信息。

许多云服务提供商选择基于这一参考设计的GB200 GPU,因为它简化了它们的研发工作,节省了时间和金钱。

他们查看参考设计,并可能根据自己的特定需求进行定制,例如调整其高度、修改管道,并使用自己的系统管理解决方案。这种方法可以提供灵活性和定制部署。我们已向所有合作伙伴发布了GB200架构,他们都在基于此设计开发系统。

原文翻译自:Q&A with Nvidia's Chief of DGX Systems on the DGX-GB200 Rack-scale System (hpcwire.com)

探秘女生行业,探秘女性创业者

探秘女生行业,探秘女性创业者

探秘女生行业,探秘女性创业者