本文内容非商业用途可无需授权转载,请务必注明作者、微博ID:唐僧_huangliang,以便更好地与读者互动。
今天尝试写点八卦的:)
Ghost 为啥跑得快?
搞IT技术的朋友,没用过下面这个的请举手…

为了截图,我刚才又重温了一下。每当回忆起Ghost就发现自己老了。
记得是98年,那时候Compaq和HP还没合并,第一次看别人用Ghost(2.0还是3.0)是在村里一家HP代理商。同年底接了个单子——几百片二手540MB硬盘,晚上直接去了北京某大院里的PC生产线,我格式化测完一块硬盘,那边的兄弟就用Ghost 5.0克隆系统盘。后来他还把这个几百KB 的“注册版”给我拷了张软盘,界面风格已经和后来的高版本基本一致了。
在Ghost之前我还用过一个好像叫“filecopy”的小软件对拷系统,并不是总能成功。那时希捷每卖一块硬盘就附赠一张工具软盘,里面有这个和dm啥的。而在用过Ghost之后才发现其它的都弱爆了,除了数据一致性之外让人赞赏的就是它的性能。Windows系统盘上,无论文件大小Ghost的拷贝速度都差别不大,我和一些朋友认为它是按扇区(数据块)处理以达到高效的。
10年前,我所在的公司有一次需要批量拷贝服务器Linux系统盘,当时Ghost还无法解析ext文件系统,因此判断不出数据只能全盘拷贝。后来我在网上查到一个叫做Acronis Ture Image的软件,也算是Ghost的同类吧。
再往后就是我改行做了企业存储,得知还有一款Acronis Backup & Recovery备份软件。应该是像Ghost技术那样,它擅长的就是整盘(分区)备份,当然需要加入网络传输模块、增量机制等。
传统备份软件的(物理机)操作系统备份,使用了与文件备份同样的技术,甚至每个小文件都会拆分成子任务来执行,其效率通常比Acronisbackup这样的“Image”级备份要低。所以对用户而言,需要考虑的是到底要备份整个系统还是一部分文件/目录。
物理网络性能与源端重删
昨天看到国外网站的一篇报道:《Mirror, mirror on the wall: Is Acronis backup truly the fastest ofthem all?——An EMC partner architect says not》(http://www.theregister.co.uk/2016/08/01/acronis_backup_speed_claims/),主题大致是说Acronis认为自己备份速度最快,而EMC合作伙伴则说不是。
而我觉得,他们的讨论过程还是有点意思的:)

上图引用自The Register网站。Acronis Backup 12备份一个180GB虚拟机用了35.6分钟,折合83.3MB/s的速度,这在一个千兆网连接的环境中还算不错了。而来自EMC白金合作伙伴的工程师则表示:“基本的Backup Exec就能达到这个水平。如果是DD Boost可以用一个1GbE网口达到450MB/s,当你加入VM CBT(变化块追踪)并且只需要移动1-15%的数据增量/变量时还会快得多。”
首先,如果我是Acronis的话会拿物理机操作系统来做测试,理由前面说过。如果是虚拟机,大家都是用HyperVisor的API备份VM镜像(大文件),对于Acronis来说就有点“自废武功”了?
再来看EMC方面,450MB/s超出了1GbE网口的物理性能,相信对Data Domain和DD Boost技术有所了解的朋友都能想到源端重复数据删除。
注:我在《技术浮沉:纵论Gartner重删备份魔力象限》一文的5个论点中,就包含有“源端加速重复数据删除受追捧”。

上图引用自EMC中文技术社区的《DD Boost介绍(二)——分布式段处理(DSP)功能》一文。该源端重删的处理步骤为:
1. 对要备份的数据进行分段
2. 给数据段打上指印(哈希)
3. 过滤掉之前已经存储过的含有相同指印的数据段
4. 对唯一的要存储的数据进行压缩
5. 记录对已经存储过的数据段的引用并将新数据写入磁盘
可见在这种处理机制下,网络性能很多时候就不再是瓶颈了。
DDBoost 确实快,但我建议看平均速度
据The Register表示EMC还举了另外两个例子,包括一个1.8TB的VMware虚拟机,备份只用了13.54分钟,boost达到19GB/s。

测试环境是EMC NetWorker8.2加上EMC VBA设备(应该是基于Avamar技术的介质服务器虚拟机),通过DD Boost发送到Data Domain。而我自己也计算了一下,测试任务好像折合2.27GB/s,没有上面说的那么高?
而在另一个测试用例中,差不多相同大小的数据库备份达到了25GB/s。下面我们来看看DataDomain的官方规格:

如上表,当前定位最高的EMC DD9500,单节点DD Boost吞吐率达到59.7 TB/小时,折算下来也大约是16.7GB/s的性能。其实这个备份速度已经很快了,而且几乎肯定是多个客户端同时运行源端重删时才能测出来。

这里再附一个Dell DR磁盘备份系统的性能测试结果。如上表,如果只是目标端重删,NFS和CIFS标准文件协议的性能为5TB/小时左右,而加入了RDA等源端重复数据删除插件之后,理想情况下可以达到超过20TB/小时的水平。
对于Hash计算的性能,我想大家估计了解一个大致的范围。所以对于前面EMC给出的数字,我理解可能是备份过程某个阶段界面上所显示的?另外,Avamar是专攻虚拟机备份的,在每个VBA设备本地应该也维护了一个指纹库,每次备份的虚拟机磁盘都会先做局部Hash比对,如果本节点已经发现是“重复数据”就不用把指纹发送到Data Domain了。
神回复:堆硬件我不怕
而这篇国外报道有意思的地方还在后面,对于EMC合作伙伴的言论Acronis给出了回应,大V记者Chris Mellor也在最后进行了评论,而我认为他们的表现都有些“失职”。
因为这两方都完全没提重复数据删除这个词。看资料Acronis Backup & Recovery 10就写了支持源端重删啊?而TheRegister是故意不捅破这层窗户纸?还是…
Acronis表示他们能在同样的硬件环境下能跑最快。甚至拿“高端CPU,100GbE网卡或者光纤通道,多层加速SSDRAID阵列带有可观容量Cache的SAN和存储”来举例。可这些不是解决问题的正确方向啊,反正我还没听说哪个有钱的用户拿100Gb网络跑备份。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文。感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage
原文链接:http://mp.weixin.qq.com/s?__biz=MzAwODExNjI3NA==&mid=2649774504&idx=1&sn=ae2392c32f60154937c9556b447ae692#rd