前言
数据中心在很多中大型企业是非常普遍的,不管是自建的数据中心还是将机器托管到其他数据中心,都是要接触数据中心。而数据中心需要一个优秀的规划设计方案,否则随着企业的高速库扩张数据中心却乱七八糟的,令人头疼无奈。
一个好的方案是数据中心一切良好的开端。数据中心的规划设计工作是要分阶段的。我们依照时间将它为三个阶段。
数据中心的规划
首先需要立项,然后开始数据中心的规划工作
第一个阶段——数据中心的准备工作。规划设计前,首要的任务是完成设备选型和能耗测试。设备选型应依据业务需求而定,方案确定以后,才能据此展开能耗测试的工作。能耗测试的结果非常重要,它是计算电力容量和空间利用率匹配最优解的核心参数。由于各家数据中心的电力容量和机柜价格并不相同,根据最优解,你才能够进一步得出总体成本的最小值。因此,设备选型和能耗测试可以帮助我们找出那些符合预期要求的数据中心。
第二个阶段——实地调研。在入围采购的筛选过程之中,实地调研是必不可少的一个环节。在这个过程中,我们要关注实际情况与最初设计方案之间是否存在着一些偏差。如果这些偏差不是硬伤,那么这家数据中心就具有入围资格,未来也有中标的可能性。设计方案就要为此做出一些调整。比方说,为了确保网络链路的冗余,我们希望单排机柜的数量以偶数为佳,便于将来布局时采取两两一组的形式来分配机柜。如果实际情况恰恰相反,那么单个机柜怎么用就是你要考虑的事情了。因此,在调研时最好能够参阅数据中心的平面设计图。从全局的角度观察,能减少问题死角带来的麻烦。从这一点上我们也能看出,设计方案存在着动态调整的可能性。
第三个阶段——平台建设。在完成采购任务后,接下来就是进一步的细化工作了。这里的工作重点在于——设计方案要如何保证各个子系统之间的平衡。在规划具体的细节时,建议邀请网络和系统方面的一线工作者一同参与探讨,充分考虑他们在实际工作中的需求。此外,还要注意业务需求的多变性,它会带来很多不确定性的因素。
需求的不确定性
规划最怕的是变化。变化是我们在规划设计中遇到的最大的阻力与麻烦。问题的根源就在于需求具有不确定性,它就像是测量学中的误差一样不可避免。很多项目变更的出现,正是因为前期需求没有讲清楚造成的。“讲不清”的主要原因有两个:一个是“说不好”,另一个是“没想到”。这种问题在那些新项目中尤为常见,特别是在创业公司或者业务转型的时期及其普遍。
开展一个全新的业务,存在着很多不可预知的因素。我们对于新业务的整体运作是抱有试水心态的。大家都知道“小马过河”的故事。虽然在过河之前,小马通过调研的方式对可行性进行了充分的论证,但它毕竟没有实践经验,所以在迈出第一步时,是没有十足把握的。同样,新项目上线后,你并不能确保它就一定朝着理想的状态发展。这是一个尝试的过程。如果顺利,投资力度自然就会加大。反之,业务就会缩减甚至取消。
从这个逻辑角度上来讲,业务部门在很多情况下是没办法预测需求的。我们发现了一个有趣的现象,预估的需求量总是小于实际的需求量。这是因为申请人采取了保守策略的缘故。人们常说“不要把弓拉满”,采取摸着石头过河的方法,其实就是为了给自己留有一些余地。但不管怎么说,项目成功的可能性更大一些,所以增项变更是大概率事件,我们必须为此要做好一些额外的准备。如果你处理不好这种问题,将会给后续工作带来非常大的麻烦。
如何避免变化打乱规划
既然需求变更是不可避免的,那么提前预判并采取积极有效的应对措施就显得十分重要了。假设我们将需求比作一只吹满了气但没有扎口的气球,一旦松手,这只气球会到处乱飞,毫无规律可言。而规划设计就像是四周的墙壁,它会限定气球的飞行。如果墙壁合围的空间过小,气球在飞行的过程中就有撞墙的可能,这就代表需求和规划之间产生了冲突。如果我们能事先评估,尽可能地将所有的飞行路线都考虑进去,并为此预留出一些空间,那么冲突的概率就会降低很多。
采购资源预留
比如说上面这个续采的例子,业务部门是设备的使用者,但是设备资产和管理是算在IT部门头上的,所以IT部门要负责提交采购申请。这里就存在很多矛盾。东西不是我用,但我要负责提采购需求,而采购需求又说不清,怎么办?大额采购的周期是比较长的,不可能让你频繁下单。但预留太多资源,财务又会削减你的预算支出。假设业务部门计划采购50台设备,你在此基础之上又预留了50台。财务部门在审核的过程中,可能会对业务部门进行调查。业务部门原本就认为自己只需要50台设备,在面对挑战时,没准儿还会缩减最初的计划。此时,这100台的设备采购预算肯定要遭到削减。
从这个例子上可以看出,资源预留不能闭门造车,必须和业务方进行充分沟通,就各种风险及解决方案达成共识。
首先,技术部门要提醒业务方,后续有可能出现增项变化。然后针对这一风险,给予对方一个合理化的预留建议。比如把设备数量从50台改为70台。
其次,要注意需求有失控、超出预期的风险。如果预留资源在未来无法满足增项需求,我们将面临着两种抉择:要么砸掉原有的墙壁继续扩容,要么让气球停下来。无限扩容显然是不现实的,好的做法是拆解超出范围的那部分需求。假设设备增项是50台,我们看一看在这50台里面,能不能把最紧急、最重要的先安排进去,其余的挪到项目二期去完成。
最后,还有一点要特别注意:在后期的扩容工作中,你要考虑是否存在迁移、停机等一系列问题。把这些内容明确下来,让业务部门有充分的心理准备,双方要就此达成共识,这一点非常重要。
数据中心机柜区域的规划与布局
设备的上架与迁移,在数据中心的日常工作中乃是家常便饭。如果前期没有一个合理有效的规划,加之人员变动频繁、岗位交接不清等因素的影响,日久天长容易出现资产混乱的问题。
古人云:一室之不治,何以天下家国为?机柜区域的规划与布局可是很有讲究的。你可别小看它,一个合理、高效的规划布局,不但能最大程度地提升空间利用率,节约项目开支,同时还具有很强的视觉效应。如果方案设计得合理,你完全可以将整张平面规划图清晰地印在脑海之中,便于理解和记忆。那么,日常的管理工作就会变得更加轻松。反之,如果你走到一处,都不清楚这里是干什么的,工作效率想必也高不到哪儿去。
按照应用的角度划分,我们可以把整个空间分为三个部分——生产区、非生产区和基础设施。生产区的设备均属于线上系统,只能由运维团队来管理。非生产区则主要用于开发和测试的工作。它对可用性的要求不高,但对自主操作的需求非常强烈。所以,非生产区的权限可以更加开放一些。由于开发和测试本身就有不确定性,在使用过程中会带来一些破坏,因此非生产区与生产区之间必须实施隔离管理。这里有物理隔离和逻辑隔离两种形式。前者需要在网络的拓扑结构上进行隔离,后者则可以通过防火墙来达到目的。数据中心的基础设施不作生产与非生产的区分。生产区和非生产区都有各自对应的基础设施,你可以将它们分别放置在不同的机柜里以示区别,但它们应当依旧同属一个空间。
接下来,我们还可以将这三个空间进一步细分成九种不同类型的区域。详细情形如图3-1所示。
下面,我们分别介绍这九个区域。
(1)网络区顾名思义,网络区主要用来安置核心层的网络设备,以及与银行对接的一些专线设备。该区域的Owner为NE(网络工程师)。
(2)管理区管理区用于提供维护管理功能,它涵盖了所有的基础服务。例如,部署系统、资产系统、DNS、文件共享、配置管理、监控系统、安全检测系统等。该区域的Owner为运维团队的所有成员。

3-1 区域分类
(3)数据库区数据库区用于安置数据库服务器。当然,你可以根据实际情况再做细分。例如,根据数据库类型来划分(Oracle、MySQL等),或者根据业务等级来划分(核心数据库、普通数据库等)。如果数据库需要外接存储,则需要综合考虑存储的空间占位与能耗,带存储的数据库最好和不带存储的数据库分开安置。该区域的Owner为运维DBA。
(4)应用区应用区用于安置前端应用服务器。它通常位于网络拓扑的DMZ区。应用区是设备数量最多的区域,同时也是变数最多的区域。这需要你事先预留出充裕的空间。该区域的Owner为PE(产品工程师/应用运维工程师)。
(5)大数据区由于对计算能力和存储空间的要求很高,大数据服务器的能耗非常惊人。以IntelE5-2640v3加12块4TB磁盘为例,350W的整机能耗只能算正常值。如果计算任务比较繁重,则其峰值会更高。所以大数据服务器不可以和一般机型混放在一起。为了提升空间利用率,建议你为数据节点服务器选用电力容量更高的机柜。名称节点服务器等其他设备和普通服务器相比,则没有太大的差别。你可以考虑在大数据区内部划出一块地方,专门安置它们。
(6)预发布区预发布区属于准生产区域。研发和运维是两个体系,生产系统不允许研发人员直接操作。产品代码在完成测试之后,都是交付给运维团队负责上线的。测试环境和生产环境之间可能会存在一定的差异。如果上线发布后出现异常,则需要回退操作。代码有问题是很常见的,回退操作将严重影响系统的可用率。而预发布区可用于模拟线上的真实环境,进一步保证了生产系统的安全更新。
(7)特殊需求区特殊需求区主要用于承接各式各样的“非主流”需求。例如,构建特定的隔离环境、安置非标准配置的服务器、临时迁移或借调设备等,这些特殊情况都不适合做统一的安置。此时,你可以把它们统统都放置在这里。我把它也戏称为“奇葩需求区”,意思是:不管你提出什么千奇百怪、偏离常态的需求,我这儿都可以满足。这个区域的空间应当多预留一些。如果用不完,后期可以慢慢回收。我的原则就是:你可以乱,但只能乱一点儿。一定要把维护成本限定在可控的范围之内。
特殊需求区的安置位置是有讲究的,建议放在应用区和数据库区的中间。另外,它的使用方式也有所不同,应当从中间的机柜向两侧扩展使用。因为要应对“需求气球”的变化,一开始会预留很大的空间,随着应用、数据库服务器的不断增加,这个空间会被逐步压缩。这种安置和上架的方式,体现了较强的灵活性,可以从容地应对未来有可能发生的需求数量的变化。
(8)开发区开发区主要面向研发和测试人员。如何定义开发区的空间大小,这取决于团队规模和产品种类。理论上,开发区在业务扩张时期的需求量最大,但不会无休止地增长。由于开发产品的团队很多,为了防止干扰,开发区内部也存在着逻辑隔离的需求,我们通常管它叫闭环系统。
(9)沙盘区沙盘区用于实验论证,它是为新技术探索研究或者故障复现而设立的。沙盘区不需要预留很多,一般不超过六个机柜。但它会带来比开发区更多的风险,所以沙盘区必须实施隔离。
规划布局案例
说了这么多,我们来举一个规划布局的实际案例。如图3-2所示,这是某个数据中心的机房平面局部图。
模块3中的核心设备即网络设备。部署网络设备应尽量靠近列头柜、配电柜等基础设施,还要注意对线缆长度的影响。穿线路由与线缆距离可通过施工平面图加以了解。
特殊需求区也位于模块3,总计20个机柜。推荐从R061向上部署,一直部署到R070,然后再从R075开始使用。如果将来机柜有富裕,可以根据实际情况分给应用区或者数据库区进行扩容。
应用区实际上是由两部分组成的,模块1的R003~R010和R017~R024是一组PoD,模块2的R031~R038和R045~R052则是另外一组PoD。在规划设计时,要注意PoD的限制,同一网段内的IP地址无法跨PoD分配。
和应用区相同,测试区也横跨了模块1和模块2。它是由模块1的R011~R014、R025~R028、以及模块2的R039~R042、R053~R056这四部分组成的。我们看到,测试区和应用区的两组PoD各是16个机柜,这三者构成了一个“品”字形的设计。假设上北下南,从北门进入模块后,左右两侧的4个机柜属于测试,剩下的就都是生产了。两个模块的应用区各自属于不同的PoD。为了以示区分,可以用单元格底色代表区域类型,用字体颜色代表不同的PoD。如此安排,你很容易记住测试区和应用区的界线在哪里。等你再进入机房时,就能很快地分辨出来。反过来,当问起一个区域的范围时,你也可以迅速地给出正确答案。

3-2 区域规划案例
ODF全称叫作Optical Distribution Frame,是专为光纤通信机房设计的光纤配线架设备。它会占用掉一部分空间,影响设备的上架率。一般来说,应用区的设备能耗低、上架密度高,所以应尽量绕过ODF部署。这里我们把含有ODF的机柜分配给了网络区、管理区和数据库区。相对的,这些区域对上架率不太敏感,可以忽略ODF带来的影响。
翻回头来,我们再来看一下模块3。其实这里有一点小问题:网络设备占据了六个机柜,但它采用了五五开的划分方式,使得R060和R074这两个机柜落了单。规划设计时最为忌讳的就是这种部署形式。但生米已经煮成熟饭了,于是我们让紧邻配线架的那个机柜落单,尽可能减少线缆的铺设长度。在这个案例中,规划不是同一个人做的。网络设备先将位置给占了,等到规划服务器时,将R060和R074这组做成了沙盘区,因为沙盘区没有高可用的需求。如果沙盘区也要做双链路冗余,可以把两个TOR交换机都放置到一个机柜里面,另一个机柜要绕线的话,R060、R074距离ODF和网络设备也是最近的。
规划设计心得
规划设计工作的重点在于:保证各个子系统之间的平衡,让各方的利益达到最大化。在这个过程中,难免会遇到一些左右为难的情况。本节将其中的一些典型案例以问答的形式列举出来,和读者朋友们一同分享。
1.数据中心机房的楼层应当如何选择
数据中心通常是多层建筑结构。如果是新建成的数据中心,客户较少,可供选择的余地较大。假设我们可以选择任意楼层的机房,那么是挑高层好,还是选低层更合适呢?
相对来说,高层的运输便利性差一些,等电梯比较浪费时间。但是低层也有低层的缺点。如果你需要使用时间源设备,就必须在楼顶加装卫星天线。低层的穿线路由距离长,将会增加施工的难度。比如信号的传输距离限制、布线空间要求等。
因此,数据中心低于三层的倾向于选低层的机房,反之就尽可能地挑高层使用。另外,请优先选择和办公区客户调试间同层的楼层。如果你在三楼驻场,而机房却安排在一楼,工作起来肯定很别扭。有些数据中心管理比较严格,对楼道施加门禁系统,只提供一部电梯给访客使用。不在同一楼层的话,工作效率和响应时间都会受到比较大的影响。如果你的设备保有量很大,机房分布在多个楼层内,核心层的网络设备适宜安置在中间楼层,便于平衡机房之间的穿线距离。
2.机柜不加装前门行吗
我们在一些新型的数据中心里可以看到,机柜是没有加装前门的。这和我们传统印象中的机柜不太一样。这种做法真的好吗?其实不装前门是有道理的。原因有三个。
第一,增加成本。传统机柜的布局没有模块概念,都是单摆浮搁的。而新型的模块式设计,会在两端部署门禁系统。不论制冷还是安全,都是以模块为单位考虑的。没有理由为单个机柜再次施加前门防护。
第二,影响制冷。在第2章中,我们已经讲过空调系统的送风模式了。现今主流的送风模式为下出风,冷空气要从机柜的前方进入。加装前门会影响气流和最终的制冷效果,浪费能源。
第三,操作不便。机柜后方只用于布线和上下架,日常操作都是在机柜前面完成的。机房内的操作空间本来就有限,来来往往经常有人员经过,这会儿你再开个门挡路就不太好了。
但有些时候,单个机柜实施全封闭是必需的。以金融业务为例,安全法案强制规定某些特殊设备必须实行物理隔离。此外,设备保有量小的用户,也会有同样的需求。
列举一个案例:
假设我们有500台服务器,其中数据库100台,前端应用370台,管理设备30台。数据中心的一个模块里面可以安置400台服务器。由于资金有限,只购买了一个独立模块,剩下的100台服务器要和其他用户的设备混放在另外一个模块里面。应当如何安排?
考虑未来扩容的可能性,建议尽量使用独立的模块。我们可以和数据中心谈,空出来的机柜暂时预留下来。当然,这跟未来的保有量以及扩容的时间周期都有关系。如果一定要和别人混放,请注意以下两点。
第一,千万不要和竞争对手放在一块。按道理讲,莫说在同一个模块里,在同一个数据中心里面遇到竞争对手都不应该。
第二,不要在“混放区域”中安置核心设备。核心设备包括数据库和网络设备,你可以把一些测试机放进去。如果无法避免,比如我一共就50台服务器,而且以后也不打算增加投入。那不如就加装个前门吧,反正也没几个钱,安全第一。
3.线缆标签如何管理
采用传统的本端到对端的标记形式过于繁杂。由于信息长度不一致,排版和打印起来都很麻烦。而且标签的制作和张贴滞后于设备上架,工作效率极低。如果我们事先定义好接线规则,完全可以使用类似SN的管理模式。给每一根线缆分配一个SN,寻线时可以按照接线规则找到对端,只要线缆两端的SN是一致的即可。
4.高电机柜好不好
高电机柜是互联网时代的产物。大型互联网公司的业务增长速度飞快,它们的设备规模已经非常巨大了。为了节约成本,对于机柜电力容量的需求正在逐步增加。传统数据中心的电力容量低,出现了设备上架率低、空间浪费大、工作效率差、管理成本高等一系列问题。高电机柜能够容纳更多的服务器,这有利于设备上架率的提升。数据中心每年是按照机柜数量来计费的,如果设备上架率低,无形中会增加很多成本。这对数据中心是有利的,但用户却吃了大亏。
可能有些人会担心高电机柜成本高,而且安置那么多设备,相当于在一个篮子里放了更多的鸡蛋。要是篮子打翻了,损失会不会更大呢?
如果体量够大,选用高电机柜还是很合算的。一个机柜每年的成本大约是十万元左右。如果你在数据中心拥有1000个机柜,即便能够节省1%,那也是相当可观的了。而且规模上去以后,业务基本上都是分布式的,没有可能出现某个业务的设备都挤在同一个机柜里面。这种担心是没有必要的。
不过话说回来,电力容量并不是越高越好。电力容量会影响上架率,同时进一步影响了网络设备的成本。这是一个多因素综合比较的过程。另外,高电机柜的资源非常有限,尤其是在一些二三线的城市就更加稀缺了。所以,也不必一味地求高,经济实用还是我们一贯的基本原则。
5.一次性部署业务时有必要考虑位置冗余吗
既然前面讲到了业务的离散分布,那么假如一开始业务量少,只有几台服务器,我是不是还要考虑把它们分散到不同的机柜当中去呢?
我个人认为这种忧虑是多余的。说到这里,大家可能会有不同的意见了。你前面一再强调冗余的重要性,又讲部署规划时不能留有任何隐患,怎么现在又要全部*翻推**呢?
木桶原理告诉我们:一个木桶能装多少水,取决于它最短的那块木板。但这个被称之为“短板效应”的理论已经过时了。今天我们认为:一个木桶能装多少水,取决于它最长的那块木板(如图3-3所示)。也就是说,只要你在某一方面拥有足够的优势,就可以利用它去弥补自身的不足。

3-3 木桶原理的短板效应与长板效应
在今天,你认为机柜掉电的可能性会很高吗?如果你的答案是肯定的,那么分散到两个机柜后就没有问题了吗?要是按照这种逻辑思考,即便分散到两个机柜,整个数据中心不是也有掉电的可能吗?如此一来,难道你还要将它们分散到不同的数据中心去吗?
解决基础架构的问题,永远都是先从整体入手。如果我们把个体问题排在前面,那你的整体规划永远也实现不了。在小地方徘徊,会陷入一个无底洞。如果业务A要考虑,那么业务B、业务C和业务D呢?这样一弄,自己就把自己给搞死了。
其实,一个机柜里最多不过二三十台设备。与其在细枝末节上浪费精力,还不如把整体的可靠性做扎实来得实在。如果电力系统能提供足够的保障,还有什么可纠结的呢?抓大放小,把关键点落实好,其他问题自然就迎刃而解了。在这一点上,思维模式必须要上升到一个更高的层级。随着体量的增加,所能实施冗余的手段也会越来越丰富。比如使用分布式的设计结构、多机房冗余等。完善整体架构才是消除个体问题最好的手段。
6.成本核算时需要考虑什么
数据中心是一个持续性投入的项目,因此我们必须对采购成本加以控制。既然它是按照机柜数量来付费的,那我们是不是可以这样理解:用最少的机柜,上最多的设备。说白了,就是提升上架率。当然,这不是绝对的。上架率并不是越高越好。如果一个机柜最多能容纳25台服务器,你真的会把它上满吗?我想没有人会这么做,因为根本就没有25口的交换机。
首先要明确设备的能耗值,这个值和服务器的配置有关。然后据此计算最佳的设备上架率,将上架设备的数量调整到一个适合的范围,使之和选用交换机的产品规格相适应。不要一边提升了上架率,另一边又增加了网络资源的开销。
在进行计算成本的时候,会涉及如下几组概念与公式。
(1)机柜有效容量这项参数直接反映了机柜的容纳能力,它的高低取决于电力容量、空间和设备能耗之间的匹配程度。计算机柜有效容量可以使用公式3-1来完成。

3-1
公式1中的常量值是指除服务器之外的设备能耗,比如TOR交换机。由于交换机的能耗比较低,一般在几十瓦到一百多瓦之间,所以它不像服务器那样有比较大的波动。我们可以近似地认为,这个数值是恒定的。TOR交换机至少需要两台,分别用于业务和带外管理。此外,由于有Pod的概念,部分机柜需要增加汇聚层的设备。因此,我们建议将常量值的取值范围定义为1.5~2A。
另外,还要特别注意几点。第一,机柜有效容量指的是服务器的数量,并不包含交换机。第二,这个公式无法消除空间限制所带来的影响。如果机架采用标准U位,设备是无法紧密摆放的。第三,使用最大能耗作除数更保险一些。这样做,是为了防止所有设备同时达到峰值而建立的最后一道防线。
(2)空间利用率
空间利用率也称设备上架率,它是反映机柜容纳能力的另一种形态。计算空间利用率可以使用公式3-2来完成。

3-2
由于服务器规格不同,单纯看机柜有效容量并不客观。同样都是42U的机柜,一个安置了20台1U的服务器,另一个安置了15台2U的服务器,你很难直接判断哪一个机柜利用得更合理。而空间利用率就很直观,参考意义更高。显然,第一个机柜的空间利用率不足50%。我们认为,要是它能提升一些电力容量,肯定会获得更好的结果。
理论上,电力容量越高,可容纳的设备就越多。但机柜空间、设备规格、设备能耗以及网络拓扑都会制约机柜的有效容量。就像前面所举的那个例子,一个机柜最多能容纳25台服务器,如果上满了,空间利用率倒是上去了,但是交换机的资源又浪费了。所以电力容量不一定越高越好,需求要切合实际情况。
(3)电量利用率
虽然空间利用率很直观,但它并不能和成本最优画等号。我们还要结合电量利用率来进行综合评判。电量利用率反映了用电效率。换而言之,就是看你有没有将电力资源充分地利用起来。计算电量利用率可以使用公式3-3来完成。

3-3
设备的能耗值有两个:一个是日常能耗,另一个业务繁忙时的最大能耗。注意:在计算电量利用率时,应当使用设备的日常能耗值,而不是最大能耗值,因为常态才是最真实的。
(4)单台损失
由于我们不可能将电力资源全部耗尽,所以电量利用率肯定小于1。如果我们将无法使用的电量算作亏损,单台损失就是平摊这部分亏损后的价格。计算单台损失可以使用公式3-4来完成。

3-4
通过公式3-4我们能看到,电量利用率越高,损失越小,空间利用率越高,平摊下来的成本就越低。请注意,公式的分母使用了机柜有效容量,没有包含交换机。这是因为交换机的个数是一个定值。不管怎样,只要启用一个机柜,交换机的数量都是固定的。而且交换机能耗低,对电量利用率的影响也不大。综合这两点来考虑,它不适合做平摊的对象。
7.如何进行成本核算
我们举个实例。假设现在有两家数据中心。数据中心A提供16A的机柜,单价费用为5000元。数据中心B提供40A的机柜,单价费用为12800元。机柜规格均为42U位的非标准机柜。服务器日常能耗值为0.8~1A,最大能耗值为1.2A,常量值设定为1.5A。服务器的规格为1U,保有量10000台。
第一轮,我们先看单价费用除以电力容量。
数据中心A的电力单价=5000÷16=312.5(元/A)
数据中心B的电力单价=12800÷40=320(元/A)
这一轮是数据中心A赢了。那么接下来,我们使用公式1来计算机柜的容纳能力。
机柜有效容量=(电力容量-常量值)÷设备最大能耗
数据中心A的机柜有效容量=(16-1.5)÷1.2=12(台)
数据中心B的机柜有效容量=(40-1.5)÷1.2=32(台)
这次数据中心B甩了它的竞争对手好几条街。第三轮,我们使用公式2来计算机柜的空间利用率。
空间利用率=设备占位数÷机柜总位数×100%
数据中心A的空间利用率=12÷42×100%=28.57%
数据中心B的空间利用率=32÷42×100%=76.19%
在空间利用率上,数据中心B依旧优于它的对手。我们再利用公式3做个对比,看哪一家的电量利用率最好。
电量利用率=(设备数量×设备日常能耗+常量值)÷电力容量×100%
数据中心A的电量利用率=(12×1+1.5)÷16×100%=84.37%
数据中心B的电量利用率=(32×1+1.5)÷40×100%=83.75%
这次,数据中心A又扳回一局。最后,我们借助公式4检视一下单台损失的情况。
单台损失=机柜费用×(1-电量利用率)÷机柜有效设备数
数据中心A的单台损失=5000×(1-0.8437)÷12=65.125(元)
数据中心B的单台损失=12800×(1-0.8375)÷32=65(元)
按照一万台服务器的保有量计算,采购数据中心A需要834个机柜,而采购数据中心B则只需要313个机柜。服务器的机柜采购成本如下所示。
834×5000=417(万元)
313×12800=400.64(万元)
如表3-1所示,这是两家数据中心(服务器)机柜成本的对比结果。

3-1 两家数据中心的数据汇总比较
注意,到此为止,这些都没有包含网络设备的成本。空间利用率还会直接影响网络设备的数量。如图3-4所示,由于业务网络需要采取冗余模式,我们将机柜两两分为一组。业务交换机要连接组内的所有设备,而带外管理交换机则只需连接本机柜的设备。采购数据中心A需要业务和带外管理交换机各834台,而采购数据中心B业务交换机的数量是有变化的。因为两个机柜的服务器总数为64台,一个48*交口**换机是无法支撑的。加入网络设备的费用后,TCO反而有可能会大于数据中心A,这就需要我们去做进一步的分析。

3-4 业务网络和带外管理网络的接线方式
我们从这个示例中获得的启示是:在进行成本核算时,不能孤立地看问题,要综合考虑各方面因素所带来的影响。事实上,管理成本和资源损耗的权重应当大于采购成本才对。随着时间进程的前行,采购成本会被平摊,但管理成本和资源损耗是持续输出的。管理成本>持续成本>一次性成本,这个思维是实现成本控制的关键。