每年的5月12日是护士节,9月10日是教师节,11月8日是记者节,作为IT从业者的一员,近两年才知道原来IT运维人员也有着自己的节日,那就是每年的7月24日,是IT运维人员的节日,即运维日。想想自己曾经是,现在是,并且未来大概率还会是一直处于IT领域,在运维日的到来之际,发文抒发一下自己的运维感想,探讨一下运维的那些事。

说到运维,谁还没有几次全身冒冷汗顶着压力紧急工作的经历呢?谁还没有几次走投无路而又峰回路转的亲身际遇呢?如果你说你没有,真的要恭喜你拥有极好的运气啦!话说回来,我可就没有你那么幸运了,想想几年前在公安某部驻场运维的那些天,每天手机不离手,短信、电话不漏接、不漏看,晚上睡觉都要把手机放到枕头旁边,生怕睡的太沉而来了电话会听不见。即使周末陪老婆孩子外出放松一下都会手机不离身,生怕外面的吵闹而听不到电话的铃声。这样的本能反应,其实都是一次次的处理紧急故障培养出来的。

记得一次晚上刷牙准备睡觉,突然水池旁的手机叫了起来,一看是信息处的来电,没来及漱口就接起来电话,对面的兄弟火急火燎的催促,我火速赶到了现场。面对某业务系统异常,导致接警人员无法出警的情况,无奈之下切换到备用方案,需要紧急处理当前故障。一般而言,凡是能影响关系到民生的系统,我们都是有备用应急方案的,甚至我们对于高度重要的系统会有第三套应急方案以备不时之需。然后,接下来就是高度紧张的一夜奋战:联系系统厂家工程师、联系公司技术团队、专家团队等寻求帮助。最终,本次紧急事件得到了圆满解决!

当然也因此,我的紧急故障处理记录中又增加了一条,并且需要详细的记录故障的原因、解决方案、后续应急方案等。当然如果对客户影响较大的事故,还需要提交一份检讨书,召开一次事故分析研讨会。但我们不得不对面事实,即使我们做了各种各样的补救措施、应急预案,但一旦事故发生,客户依然还是要受到事故的影响。因此我们更需要一种可以提前发现故障的能力,或者是可以提前预知故障的软件,我们就可以少一些救火员的工作了!

7×24 意味着我们IT运维人员,尤其IT一线运维人员,终极任务是需要保证客户的IT系统的7×24小时不间断运行,各种业务的7×24不间断服务,数据库、中间件、各个应用的7×24小时不间断高可用的在线状态。这就对我们提出了严格的要求,由其是有着更短的RTO的要求,更高精度的RPO即零数据丢失的需求,也对我们提出更高的期许,幸运的是,我看到iCOP的应用,看到了Datacaptain、iLOG、iTAM等一系列专注智能运维的产品的面世应用,我对高效运维、安全运维、人本运维以及机器学习的智能运维有了更深的理解。

iCOP产品的实时监控、故障预警、风险预测等实用的功能,可以大大提升故障发生前的发现能力,相比之前,用户或者业务人员发现了故障,而身为一线运维的我们只能被动救火;而一旦使用iCOP,其故障预警、风险预测功能可以帮助一线运维人员把故障消灭在发生前,这对于提升客户的不间断服务有着重要意义。工欲善其事,必先利其器!我们一线运维人员如果能够拥有各种各样的工具,就能帮助我们提高工作效率,减轻解决问题的压力。拥有一款智能化的自动运维平台,必然可以减少大量的重复工作。

7×24 一个IT运维人员的运维使命,一个IT运维人员期望在这个时间内所维护的任何一套系统都可以正常7×24高效的不间断运行,不间断的提供服务。但做到这一点,对运维人员的知识全面化和集成化要求也是越来越高,在排查问题时,即要懂得数据库的运行原理,也要懂得与中间件的交互机制,更要懂得业务的运转流程,这些对于快速解决突发故障极为重要!

如今各种安全事故频发不断,通过近期的数据安全话题,相信大家也已知道其造成后果的严重性,我们不仅要有提前感知故障的能力,也要有提前预防安全事故的手段,如何在不开启数据库审计的情况下保证数据的安全?如何在合理授权后保证操作人不去导出结果或者越权操作其它?DataCaptain数据安全管控平台,可以助力您数据操作的道路上安全前行,为数据安全保驾护航!

一个好汉三个帮,智能化+自动化运维已然在向我们招手,在日常的运维道路上,如何保证高效的一线运维,如何保证维护系统的可靠性,如何提升用户的运维满意度,MC-Stack中,总有一款适合你! 节日来临之际,恭祝运维小伙伴们节日快乐,系统永正常,业务稳生产!
作者简介

杨立强
北京西骏数据股份有限公司交付工程师,数据库专家,Oracle认证OCM。长期从事数据库领域的研究与实践,曾就职华东电子软件技术有限公司,参与港口机房信息化建设、公安部门的信息化建设等项目,拥有多年Oracle数据库备份恢复、数据迁移与高可用、数据容灾、网络通信等领域通信等领域的数据库运维和实践经验。