软硬件自研 (软硬件研发)

编者按:

阿里的白盒交换机自研赶上了云计算快速发展的年代。经过多年的实战检验,阿里在白盒交换机领域积累了丰富的经验。归根到底,软硬件自研服务的是阿里整个网络架构的平滑和快速迭代,降低单位带宽的成本;同时,软硬件自研服务也为阿里的大规模自动化运营提供了基础。

全文约4641字,建议阅读时间12分钟。

2018年 投入第一代 软硬件全自研交换机 研发至今,阿里巴巴的自研网络硬件已覆盖并规模部署到阿里云的整个网络,成为了整个网络的基础。

软硬件研发,阿里云数据集成

一切为了规模

规模 ,是 互联网数据中心 传统数据中心 的最大区别,因此,通常会把这类互联网、云计算数据中心称作 超大规模数据中心——hyperscale data center

阿里云在全球 28个地域 86个可用区 里运营着 上百座 数据中心,每个数据中心能够容纳 几万台到十几万台 服务器。庞大的数量催生了“三大规模”挑战: 超大规模接入、超大规模运营、超大规模演进

超大规模接入

白盒交换机 胜任超大规模接入。

Scale Out理念和CLOS架构为硬件白盒化奠定了架构基础

Scale Out 理念利用横向扩展来增加网络的接入能力,而不是一味增加单台设备的 端口数量 CLOS架构 则很好的贯彻了 Scale Out 的理念。这种网络架构能够用 小规模、低成本 的设备,构建大规模的网络,成为 超大规模数据中心的事实架构标准

软硬件研发,阿里云数据集成

这样的背景下, 盒式交换机 终于有了用武之地,盒式交换机的设计复杂度相比传统的 框式交换机 要低,这就为 硬件白盒化 奠定了架构基础。

SDN让封闭系统变成开放系统

传统的数据中心交换机多为复杂的框式交换机,并且 数据面、控制、管理 完全由设备厂家控制,是一个封闭的系统。SDN的核心思想之一是 开放和解耦 ,通过解耦把单个厂商封闭系统变成一个开放的系统。最具代表性的成果是 商业化交换机芯片逐渐占据数据中心网络市场的主导地位 开源组织 开源软件 也如雨后春笋般出现。白盒交换机有了架构的基础,也有了芯片基础。

最后,不得不提的是 SONiC 这个 交换机开放操作系统 。阿里巴巴主力推动的开源SONiC已经成为交换机开源操作系统的事实标准。

至此,白盒交换机俨然成为了大规模数据中心的天选之子。

超大规模运营

白盒交换机解决超大规模网络的运营问题。

传统网络的运营,类似于人工驾驶,每个运营人员就像驾驶员,需要操控好自己的车子,以应对突发路况,而当我们的交通网越来越大时,单纯依靠驾驶员自身的能力将无法达到 最佳效率

超大规模网络的运营,类似于大交通网下的自动驾驶,通过为 全网交换机 赋予丰富的 监控能力 ,再通过对大量 数据 智能分析和集中处理能力 ,能够大幅提升超大规模网络的运营效率。

超大规模演进

白盒化帮助实现超大规模架构的快速部署和迭代,从更高的维度实现 性能和成本 的最优解。

在依赖商业交换机的时代,整个网络的演进受限于厂家的方案,用户需求真正体现到设备厂家会存在迟滞;除此之外,在成本上,传统网络成本的降低,依赖于 三方竞价 等手段来降低单设备的成本,而白盒赋予其在更高维度上的成本优化方式。

快速变化的业务驱动下,用户可第一时间享受到 新芯片、新架构 的红利,且能够形成长期稳定的架构演进方案,从而实现整体网络成本的降低。

软硬件研发,阿里云数据集成

软硬件研发,阿里云数据集成

自研之路

阿里巴巴基于全自研交换机的网络架构始于 2018年 。彼时 100G模块 已成为成熟的方案,商业 12.8T交换芯片 也刚刚出世, 25G网卡 的服务器也开始规模上线。

在这样的背景下,有个最为恰当的选择:利用12.8T单芯片打造128个100G端口的交换机,从而实现 网络性能、成本 双赢。

这里有必要做一些背景介绍。

在三层 CLOS架构 下,整个网络能够接入 网卡和服务器的数量 ,也就是我们所说的 集群规模 取决于单台交换机的端口数量

软硬件研发,阿里云数据集成

而交换机的 单端口带宽 则反映了业务对于带宽的需求。

以12.8T交换芯片为例,基于单芯片的交换机可以设计成 128x100G端口 ,或者 32个400G端口 。对于后者来说,带宽提升了但同时牺牲了接入的规模。

而交换机的端口形态也决定了使用哪种光模块。业务的需求,最终反映到了 网络的架构和交换机端口形态的选择 上。

软硬件研发,阿里云数据集成

北美的四大互联网中也有出于对 高带宽 的需求,同时为了兼顾集群规模,而采用多个盒式交换机互连来形成一个逻辑上的大带宽多端口的 Leaf/Spine交换机 ,并且一直延续这样的架构。其带来的影响是相比单芯片的盒式交换机组网方案, 互连复杂度增加,同时互连跳数增加导致时延增加

基于当时自身的需求和产业链状况,阿里巴巴选择了一条最为适合自己、最为简洁的 单芯片交换机 方案。

2019年底 ,在第一代架构规模上线之时,阿里云开始规划下一代的网络方案。此时25.6T交换芯片呼之欲出。走 400G网络还是走200G网络 成了争论的焦点。当时,一些北美互联网公司规划了 800G/400G的互连方案 ,从技术上看,在光互连技术上确实领先业界。但是400G在可预见的几年内还不能达到较好的性价比;另一方面,基于25.6T芯片做400G端口的交换机, 端口数量相比200G减少一半 ,整体的集群规模会降至200G网络的1/4,这是更为致命的一个问题。

权衡利弊之后, 阿里云选择了200G路线 :既能保证 架构和带宽平滑演进 ,又能 保持集群规模 ,选择这一路线带来的挑战是需要驱动产业链去为200G的模块做好准备。从这一*开代**始,阿里云开始了自己的集群架构和交换机的演进之路。

商业芯片还在按照既定的 2年一代 的节奏进行升级,51.2T芯片已跃出水面,真正的 400G时代即将到来

对业务规划的深入理解、对产业的清晰认知和影响、对架构演进的合理规划,让阿里云比四年前更有自信。

软硬件研发,阿里云数据集成

过去很长的时间里,网络设备的管理和运维都是以人手动为主,网络配置采用命令行,网络故障发现需要靠人肉通过 Ping、Traceroute 等基本工具来进行。阿里的 每个大型数据中心都有几千台的交换机 ,依靠人来手工运维是不现实的。

阿里云的数据中心网络利用软硬件自主可控,实现了 运营的自动化和智能化 。自动化运营包括很多方面,从最开始的 自动化架构验证 ,到 自动化的规模部署 ,再到 自动化的新功能发布、软件版本升级 ,以及 故障的自动化发现、隔离和恢复 等。

与厂商的封闭设备不同,阿里通过软硬件自研实现自主可控,从头打造了适合大规模运营的 部署能力、监控能力、排障能力、升级能力 等等。大规模自动化运营水到渠成,支撑规模运营的思想贯穿着交换机的整个生命周期。

软硬件研发,阿里云数据集成

从第一代自研交换机开始,阿里就将 BMC 引入到了交换机中,作为交换机的第二大脑。传统的交换机内,CPU负责了所有的控制和管理任务,一旦CPU出现问题,设备就会失联,也很难对故障进行追溯, 故障的恢复也需要依赖人工干预 。BMC的引入,将设备的管理任务搬到了BMC,CPU则专注于 交换芯片的控制 :在CPU挂死时, BMC能主动获取CPU的故障信息 ,同时结合设备上的实时传感器监控数据 对故障过程和原因进行排查、分析 ;同时,BMC还能 对CPU和设备进行恢复,避免了人工干预

软硬件研发,阿里云数据集成

除了主架构交换机,阿里还将带外网络进行了全面的自研化改造。 带外交换机和串口服务器 是网络的第二道生命线,当带内出现问题时,往往要依赖于带外通道对故障进行排查和恢复。长期以来带外并未受到足够重视, 供应、成本、稳定性 这些都是老大难的问题。

同时,主架构交换机自研的理念也带到了 带外 ,除了解决供应、成本、稳定性这三大问题,也将自动化能力和丰富的运维特性带给了带外,极大提高了整个网络运营的效率。

在规模部署和运营上,另一个不得不提的是“ 自研交换机+DAC的整机柜一体化方案 ”,该方案极大提升了交换机和服务器互连的稳定性,提升了建设和运营效率,关于这个主题,我们接下来会有单独的一篇文章去详细介绍。

软硬件研发,阿里云数据集成

生态的力量

传统设备厂商设计一款交换机,需要有非常大的投入和很长的周期。对云计算厂商来说, 效率 是非常重要的。

解法是什么?那就是——生态的力量。

S³IP-网络标准化新引擎

打造生态,推动生态,合作共赢, 让白盒交换机的开发和集成更为简单 。这也是在2020年推动发起 S³IP的初衷和主旨 。今天的S³IP,联合了国内几乎所有的头部互联网厂家,也吸引了业内主要的白盒交换机 ODM厂家、商业芯片厂家

如何打造网络标准化新引擎的呢?

因为白盒交换机底层驱动向上接口的差异,造成了不同交换机需要投入重复的集成工作,为此提出了 驱动接口标准化sysfs

因为交换机平台测试上存在的差异化,提出了 平台测试标准化PIT

因为厂家 SONiC系统和用户环境及需求存在的差异 ,阿里云提出了 D4OS 这一标准化的厂家出货的OS,不仅解决了统一的问题,同时也为D4OS植入了支持交换机大规模部署的程序,使得厂家OS能够 无缝对接用户

在硬件层面,为了支持软件和系统更好地集成,从功能层面提出了 硬件系统的基础能力需求

对于 核心的CPU模组进行了标准化 ,统一了用户的需求,让用户和ODM的研发效率大大提升。可以说,S³IP从最朴素的想法出发,从点到面,已逐步构建了一个国内白盒交换机领域的标准体系。

软硬件研发,阿里云数据集成

今天,S³IP生态已吸引了 7家头部互联网公司、1家运营商伙伴、10家交换机领域的系统厂家,7家芯片公司 的加入,目前,已经贡献超过 2万+行代码 供生态伙伴使用,超过 30款系统 按照S³IP标准进行适配。S³IP当前的标准化覆盖了 白盒交换机底层硬件、底层软件、平台测试 ,正在向芯片标准化进发。

S³IP在扎根国内的同时,也不忘输出影响力到国际上。去年,S³IP将 PIT/Sysfs 推到了 SONiC社区 PIT/Sysfs HLD PR 已获通过;在未来网卡和交换机融合的新领域,S³IP也会和DASH社区保持紧密沟通。

软硬件研发,阿里云数据集成

QSFP112

除了S³IP这一白盒标准化组织,阿里在交换机端口的标准化上也进行了持续的推动和贡献,主导发起了 QSFP112 MSA组织

阿里的网络架构,决定了在交换机设备上会持续走 单芯片128端口的路线 。结合 交换芯片从25.6G到51.2G,再到102.4T的演进路线 ,阿里的交换机端口会长期使用 4个lane 的方案。简单来说,就是一个端口由四个高速串行电信号组成。

串行电信号的速率为25G,单个端口速率为100G,这就是业界现有的 QSFP28标准 。串行电信号的速率为50G,单个端口速率为200G,业界标准就是 QSFP56标准

当确定了长期的架构方案后,我们发现:当 串行电信号的速率达到112G 的时候,也就是 单端口400G 的时候,业界还没有这样的标准(很大一部分原因是由于北美四大互联网的网络和交换机路线和我们存在差异,他们走的是单端口8个或16个高速串行信号的方案)。这便驱动了阿里云在 2021年率先发起QSFP112标准 。使得整个产业链为 400G时代 做好了准备,也为未来QSFP224标准打下了坚实的基础。

软硬件研发,阿里云数据集成

软硬件研发,阿里云数据集成

结语与展望

随着 处理器和存储能力 不断升级, AI 等新应用的兴起,网络的性能变得愈加重要。在这样的背景下,阿里提出了“ 可预期网络 ”的理念。“可预期网络”的核心,是通过 端和网的协同与融合 ,保证网络的带宽和延迟,这一思想的前提,是需要端侧和网侧的透明,而交换机的自主可控是这个思想的基础之一。

和传统的计算不同,AI和智算有着特殊的流量模型, all-reduce 的算法使得网络更容易出现 Incast ,而任务本身对于Incast造成的拥塞也更为敏感。

新形势下,我们的AI网络如何搭建和优化?我们的自研交换机怎样配合新的网络架构去支持新的业务场景?这些都是阿里云“可预期网络”目前需要思考的问题。 “可预期网络”的目标和新兴的智算业务,驱动着自研交换机的未来发展。