人工智能发展进程现在还处于早期阶段,但ChatGPT等迅速兴起的发展轨迹让Pure Storage非常清楚认识到:在GPU上存储和运行大量数据以训练人工智能模型的需求几乎肯定需要大量快速的新一代全闪存阵列。

Pure Storage研发副总裁Shawn Rosemarin表示,大型语言模型(LLM)让世界尝到了人工智能的味道,但还有更多的工作要做。
这里的挑战是,大多数企业都希望从专用数据集中收集信息,其中一些数据集高度机密、高度安全、高度受限。所有这些数据都需要自己进行训练,才能真正发挥作用。
像ChatGPT这样的人工智能模型为我们提供了一种推理引擎。经过预训练的转换器模型不要求人类特别寻找一堆数据来理解和推理。而下一步则是将同样的技术应用于公司的私人数据,如放射学记录、交易记录或石油储量。这就需要大幅增加存储和计算量。
Rosemarin说:“这给存储带来了巨大的压力。因为存放大量数据的磁带不够快,无法并行化。硬盘不够快,不能并行化。客户非常清楚地看到,存储是他们充分利用GPU的瓶颈。不仅在IOPS(每秒读写速度)方面,而且在并行存储性能方面。”
最初将闪存视为特别存储手段的公司可能需要重新考虑其方法,并将闪存作为其主要数据存储设备。闪存阵列将能够更好地为GPU提供训练数据,并处理训练人工智能模型所需的所有其他数据任务。
Rosemarin称:“我们必须将训练的概念视为数据密集型的。必须获取非常大的数据集,将这些数据集分解为大量相关信息,我指的是标记的、准确的信息。然后把它输入这些GPU……接着这些GPU可以去训练模型。”
不仅大型数据集需要更多的存储,而且在大型数据上训练LLM需要更高的性能和更快读写速度。所有这些都指向了一个未来,超高速闪存阵列将成为训练人工智能模型的标准配置。
“更多的参数意味着我需要有更快速度,才能真正训练这些模型。”他说。“性能变得至关重要,因为GPU消耗的数据与扔给它的数据一样多,而且在大多数情况下,实际上给GPU提供足够的存储空间是一个主要问题。然后是所有这些数据服务的并行化。我可能有数千个GPU都急需存储空间。他们都希望在很快的时间内获得存储空间,没有人愿意等待其他人完成。”
Pure Storage有一条内部通道,能够满足人工智能训练对快速存储的日益增长的需求。该公司用供应商提供的原始NAND制造自己的磁盘或DirectFlash模块(DFM),这让Pure Storage有了更多的控制权。他指出,该公司开发了自己的操作系统Purity,这也赋予了它更多的控制权。
在容量方面,Pure Storage也处于领先地位。Pure Storage的路线图要求到2025年达到300 TB的DFM,而其他闪存供应商的路线图只达到60 TB。
Pure Storage曾与世界上一些最大的人工智能公司合作,包括Facebook母公司Meta,为Meta AI的研究超级集群(AI RSC)提供存储,该集群是世界上最大的AI超级计算机之一。Pure与英伟达合作设计了其AI-Ready Infrastructure(AIRI)解决方案,该解决方案基于英伟达DGX BasePOD AI参考架构,包括最新的FlashBlade//S存储。

在Pure/Accelerate 2023用户大会上,Pure Storage发布了几项公告,包括推出其FlashArray//X和FlashArray//C R4型号的新产品,以及为其存储即服务产品Evergreen//One提供勒索软件保护。
Pure表示,FlashArray//C R4型号的性能提高了40%,内存速度提高了80%,在线压缩提高了30%。FlashArray//C系列将包括75TB QLC DFM,X产品,而FlashArray//X系列将附带36TB TLC DFM。
与此同时,Evergreen//One存储服务的新服务级别协议(SLA)为客户在勒索软件攻击后提供了某些保证。具体而言,该公司表示,最迟将在攻击发生后的第二天运送干净的存储阵列,并将与客户合作,在48小时内实时恢复计划。