潮数:阿里云大规模服务中断应重视应用容灾

阿里云于2022年12月发生了大规模服务中断,导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台、以及澳门日报等本地传媒APP无法使用。潮数作为国产数据安全厂商,提醒大家应该重视应用容灾。

阿里云大规模服务中断 影响较大

2022年12月18日,阿里云香港Region可用区C发生大规模服务中断事件,对很多客户业务产生重大影响,影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务。同时导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台、以及澳门日报等本地传媒APP无法使用。

一般来说,云服务器宕机只需要一个小时左右便能恢复,而阿里云这次宕机从18日早上8点56分首次检测到故障警告,到次日凌晨0点30分所有服务恢复正常,历时超过15个半小时。这是阿里云运营十多年来持续时间最长的一次大规模故障。

潮数:阿里云大规模服务中断应重视应用容灾

业务连续性与应用容灾

业务连续性是一种由计划和执行过程组成的策略,其目的是为了保证企业包括生产、销售、市场、财务、管理以及其他各种重要的功能完全在内的运营状况百分之百可用。可以这样说,业务连续性是覆盖整个企业的技术以及操作方式的集合,其目的是保证企业信息流在任何时候以及任何需要的状况下都能保持业务连续运行。

其于业务连续性,容灾可分为数据容灾和应用容灾。

数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时、可用的复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。采用的主要技术是数据备份和数据复制技术。  数据容灾技术,又称为异地数据复制技术,按照其实现的技术方式来说,主要可以分为同步传输方式和异步传输方式(各厂商在技术用语上可能有所不同),另外,也有如“半同步”这样的方式。半同步传输方式基本与同步传输方式相同,只是在Read占I/O比重比较大时,相对同步传输方式,可以略微提高I/O的速度。而根据容灾的距离,数据容灾又可以分成远程数据容灾和近程数据容灾方式。下面,我们将主要按同步传输方式和异步传输方式对数据容灾展开讨论,其中也会涉及到远程容灾和近程容灾的概念,并作相应的分析。

所谓应用容灾,是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份),在灾难情况下,远程系统迅速接管业务运行。数据容灾是抗御灾难的保障,而应用容灾则是容灾系统建设的目标。建立这样一个系统是相对比较复杂的,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP等资源,以及各资源之间的良好协调。主要的技术包括负载均衡、集群技术。数据容灾是应用容灾的基础,应用容灾是数据容灾的目标。在选择容灾系统的构造时,还要建立多层次的广域网络故障切换机制。本地的高可用系统指在多个服务器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能迅速切换到其他服务器上运行,即本地系统集群和热备份。在远程的容灾系统中,要实现完整的应用容灾,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。

潮数科技提供CDP数据保护 应用容灾保障业务连续

传统的数据备份,当数据丢失后无法立即恢复,需要一个过程才可以。在这一过程中会产生很多不确定的因素,如:数据丢失,系统损坏等。如果可以实现存储故障的即时接管,就可以降低数据丢失的问题。潮数科技推出的潮数数据CDP保护系统,可以做到应用容灾,保障业务连续。

潮数软件采用基于块的CDP功能,直接运行在逻辑的卷管理器上,提供了系统内核 I/O 级别的保护。当数据块写入生产数据的存储设备时,CDP系统实时捕获数据的拷贝并将其存放在另外一个存储设备中。

服务器主机对生产存储的每一个写入I/O,都会被镜像代理分流写入到潮数软件一份,等待两边都确认才返回OK。所以当生产存储发生故障时,潮数软件可以达到完全相同的数据状态(或者最多相差一个I/O)。这可以说是最高级别的保护,真正实现了CDP“不丢数据”的承诺,并且为存储和应用的HA接管打下了基础。

这样由于它的I/O级同步保护技术,确保了潮数软件CDP的本地RPO可以达到“零”。这个“零”指的是潮数软件CDP(持续数据保护)技术把用户RPO缩短至秒级甚至毫秒级,通过无限记录功能可以实现用户数据I/O级的恢复,使用户RPO接近于“零”。

潮数:阿里云大规模服务中断应重视应用容灾

而对于存储设备故障,潮数软件实现了以往解决方案无法实现的目标。对于RTO,潮数软件CDP技术把绝大多数故障的恢复时间都限定在分钟级别。潮数软件CDP可以在Unix和Linux系统下,实现生产存储故障的即时接管,即RTO=0。

当存储出现故障时,CDP镜像会自动接管业务,数据库系统感觉不到中断和设备灾难,实现了RPO=0和RTO=0。当生产存储恢复时数据会在镜像阵列中自动同步,这样通过潮数软件CDP可以把用户的RPO控制在毫秒级以及RTO控制在分钟级别,做到真正意义上的持续数据保护。