随着信息化发展越来越重视运行维护工作,以前大多都是重开发轻维护。不论建设方、施工方或开发集成方、监理方或者没有监理,都是这样。现在招聘出现大量维护的工作,具体做什么有点了解,不是很具体。从监理角度来看下。
(一)运行维护服务交付过程
1. 运维服务需求识别
根据工作目标、内容、结果来分例行操作服务、响应支持服务、优化改善服务、调研评估服务。
2. 运维服务内容
(1) 调研评估
运维服务方案主要内容:
① 需求的调研、评估和服务方案的制定
② 系统版本管理方案的制定
③ 需求变更方案的制定与评估
④ 软件升级方案的制定与评估
⑤ 系统优化方案的制定与评估
⑥ 重大配置变更评估和方案的制定
⑦ 系统迁移的需求的调研、评估和方案制定
(2) 例行操作
一般为监控、预防性检查、常规作业。
常规作业具体包括:
① 对网络及硬件运行状态进行检查
② 对系统磁盘状态、CPU、进程、内存的使用情况进行巡检
③ 对各项服务及服务器运行状态进行检查
④ 对组件进行自检
⑤ 通过相关运维工具的功能页面检查服务是否正常
⑥ 对系统操作行为进行备案,定期检查系统调用访问日志
⑦ 检查服务运行健康情况,包括服务URL是否可以正常访问、服务是否正常运行
⑧ 定期对系统接口进行测试与自查
⑨ 定期对软件系统进行自查
(3) 响应支持
对服务的需求或业主的请求进行支持,一般包括应用级启停、系统级启停、权限配置、更新驱动、用户口令重置、参数调整、系统配置、故障处理。
(4) 优化改善
具体包括:
① 对系统、数据库、应用服务器中间件等集成性优化
② 优化系统参数、配置文件,更新系统错误或性能更新包
③ 对现有系统进行功能跟新,应用系统升级
④ 对客户端错误或已经漏洞进行修复
⑤ 对性能和可靠性进行改善
⑥ 对业务逻辑、符合度的优化改善
⑦ 对应用服务能力进行优化,如对应用进程数、线程数进行优化
⑧ 应用日志级别及日志空间的调整
3. 运维服务交付方式
(1) 现场交互
到业主单位之前的工作:
① 了解交付内容、到达时间、之前支持情况或遗留问题,并与业主确认
② 对复杂或存在风险的工作做好预案,经审核后实施
③ 准备必要的资料和工具
④ 根据安全要求,做好准备工作
到业主单位之后的工作:
① 及时通知业主单位并确认到达时间
② 与业主单位确认服务内容、操作流程和可能风险后的实施
③ 严格遵守业主现场管理制度
④ 根据安全要求提供现场交付服务,最好服务记录
⑤ 完成确认的工作内容
⑥ 遇到无法解决的问题或业主提出额外要求,通知上级,得到授权后实施
离开业主单位之前的工作:
① 与业主确认工作完成情况,必要时签署服务单
② 就遗留问题的处理建议和业主达成共识
③ 根据业主要求恢复现场原状和清洁
④ 做必要的安全检查,如清楚本次服务的临时账号等
⑤ 获得业主同意离开
离开业主单位之后的工作:
① 调查客服满意度
② 更新服务记录
③ 就遗留问题寻找解决方案,跟踪解决
(2) 远程交付
提供远程交付前的工作
① 了解交付内容、到达时间、之前支持情况或遗留问题,并与业主确认
② 对复杂或存在风险的工作做好预案,经双方审核后实施
③ 确保远程交付所需的工作条件满足安全、稳定和可用的要求
提供远程交付过程中的工作
① 按约定提供远程服务
② 与业主单位确认服务内容、操作流程和可能风险后的实施
③ 严格遵守业主现场管理制度
④ 根据安全要求提供远程交付服务,最好服务记录
⑤ 完成确认的工作内容
⑥ 遇到无法解决的问题或业主提出额外要求,通知上级,得到授权后实施
结束远程交付之前的工作
① 就遗留问题的处理建议和业主达成共识
② 做必要的安全检查,如清楚本次服务的临时账号等
③ 获得业主结束许可
结束远程交付之后的工作
① 调查客服满意度
② 更新服务记录
③ 就遗留问题寻找解决方案,跟踪解决
(二)运行维护应急管理
(1) 建立应急管理制度
明确应急响应的目标、原则、范围、各项制度。具体:
① 应急管理制度遵循统一领导、分级负责、预防为主、快速响应原则
② 与相关利益方应急管理制度达成一致
③ 定期对制度进行评审
④ 在组织战略、业务流程、客户要求等重大变化时调整制度
(2) 规范应急响应组织
组织架构由运维相关方组成,包括业主单位的信息主管部门、运维提供方、运维执行方、可能还有监理方。具体要求:
① 实现统一领导、分级负责
② 规定服务及响应相关所有人员角色及职责
③ 与相关方就服务范围、要求达成一致,确认沟通流程和方式,形成记录
④ 若组织人员变动,及时通知相关方,作记录
(3) 制定应急响应预案
从风险和管理方面确认风险要素,制定方案。主要内容包括:
① 对风险要素的评估,形成评估报,对识别风险形成及应对措施
② 根据风险级别制定应急预案
③ 应急预案分总体预案和针对个核心系统的专项预案
④ 应急预案能为组织对系统恢复提供操作指导
⑤ 应急预案要清晰、简洁、易于执行,可使用检查列表
⑥ 应急预案定期开展培训,至少一年一次
(4) 组织培训和开展应急演练
相关人员了解应急预案目标和内容,熟悉操作流程。具体执行工作:
① 制定演练计划、脚本
② 组织培训,讲解预案、计划、脚本
③ 对演练过程记录
④ 保障演练过程不影响业务
(5) 应急响应工作总结
① 对应急响应工作分析和回顾形成总结报告,作为改进工作及信息系统的重要依据
② 应急事件总结、应急工作审核的结果作为应急准备工作的改进要素
根据总结报告建议项和评审结果完善信息系统,深化应急工作