信息系统监理师视频教程2022 (信息系统监理师第二篇第14章讲解)

随着信息化发展越来越重视运行维护工作,以前大多都是重开发轻维护。不论建设方、施工方或开发集成方、监理方或者没有监理,都是这样。现在招聘出现大量维护的工作,具体做什么有点了解,不是很具体。从监理角度来看下。

(一)运行维护服务交付过程

1. 运维服务需求识别

根据工作目标、内容、结果来分例行操作服务、响应支持服务、优化改善服务、调研评估服务。

2. 运维服务内容

(1) 调研评估

运维服务方案主要内容:

① 需求的调研、评估和服务方案的制定

② 系统版本管理方案的制定

③ 需求变更方案的制定与评估

④ 软件升级方案的制定与评估

⑤ 系统优化方案的制定与评估

⑥ 重大配置变更评估和方案的制定

⑦ 系统迁移的需求的调研、评估和方案制定

(2) 例行操作

一般为监控、预防性检查、常规作业。

常规作业具体包括:

① 对网络及硬件运行状态进行检查

② 对系统磁盘状态、CPU、进程、内存的使用情况进行巡检

③ 对各项服务及服务器运行状态进行检查

④ 对组件进行自检

⑤ 通过相关运维工具的功能页面检查服务是否正常

⑥ 对系统操作行为进行备案,定期检查系统调用访问日志

⑦ 检查服务运行健康情况,包括服务URL是否可以正常访问、服务是否正常运行

⑧ 定期对系统接口进行测试与自查

⑨ 定期对软件系统进行自查

(3) 响应支持

对服务的需求或业主的请求进行支持,一般包括应用级启停、系统级启停、权限配置、更新驱动、用户口令重置、参数调整、系统配置、故障处理。

(4) 优化改善

具体包括:

① 对系统、数据库、应用服务器中间件等集成性优化

② 优化系统参数、配置文件,更新系统错误或性能更新包

③ 对现有系统进行功能跟新,应用系统升级

④ 对客户端错误或已经漏洞进行修复

⑤ 对性能和可靠性进行改善

⑥ 对业务逻辑、符合度的优化改善

⑦ 对应用服务能力进行优化,如对应用进程数、线程数进行优化

⑧ 应用日志级别及日志空间的调整

3. 运维服务交付方式

(1) 现场交互

到业主单位之前的工作:

① 了解交付内容、到达时间、之前支持情况或遗留问题,并与业主确认

② 对复杂或存在风险的工作做好预案,经审核后实施

③ 准备必要的资料和工具

④ 根据安全要求,做好准备工作

到业主单位之后的工作:

① 及时通知业主单位并确认到达时间

② 与业主单位确认服务内容、操作流程和可能风险后的实施

③ 严格遵守业主现场管理制度

④ 根据安全要求提供现场交付服务,最好服务记录

⑤ 完成确认的工作内容

⑥ 遇到无法解决的问题或业主提出额外要求,通知上级,得到授权后实施

离开业主单位之前的工作:

① 与业主确认工作完成情况,必要时签署服务单

② 就遗留问题的处理建议和业主达成共识

③ 根据业主要求恢复现场原状和清洁

④ 做必要的安全检查,如清楚本次服务的临时账号等

⑤ 获得业主同意离开

离开业主单位之后的工作:

① 调查客服满意度

② 更新服务记录

③ 就遗留问题寻找解决方案,跟踪解决

(2) 远程交付

提供远程交付前的工作

① 了解交付内容、到达时间、之前支持情况或遗留问题,并与业主确认

② 对复杂或存在风险的工作做好预案,经双方审核后实施

③ 确保远程交付所需的工作条件满足安全、稳定和可用的要求

提供远程交付过程中的工作

① 按约定提供远程服务

② 与业主单位确认服务内容、操作流程和可能风险后的实施

③ 严格遵守业主现场管理制度

④ 根据安全要求提供远程交付服务,最好服务记录

⑤ 完成确认的工作内容

⑥ 遇到无法解决的问题或业主提出额外要求,通知上级,得到授权后实施

结束远程交付之前的工作

① 就遗留问题的处理建议和业主达成共识

② 做必要的安全检查,如清楚本次服务的临时账号等

③ 获得业主结束许可

结束远程交付之后的工作

① 调查客服满意度

② 更新服务记录

③ 就遗留问题寻找解决方案,跟踪解决

(二)运行维护应急管理

(1) 建立应急管理制度

明确应急响应的目标、原则、范围、各项制度。具体:

① 应急管理制度遵循统一领导、分级负责、预防为主、快速响应原则

② 与相关利益方应急管理制度达成一致

③ 定期对制度进行评审

④ 在组织战略、业务流程、客户要求等重大变化时调整制度

(2) 规范应急响应组织

组织架构由运维相关方组成,包括业主单位的信息主管部门、运维提供方、运维执行方、可能还有监理方。具体要求:

① 实现统一领导、分级负责

② 规定服务及响应相关所有人员角色及职责

③ 与相关方就服务范围、要求达成一致,确认沟通流程和方式,形成记录

④ 若组织人员变动,及时通知相关方,作记录

(3) 制定应急响应预案

从风险和管理方面确认风险要素,制定方案。主要内容包括:

① 对风险要素的评估,形成评估报,对识别风险形成及应对措施

② 根据风险级别制定应急预案

③ 应急预案分总体预案和针对个核心系统的专项预案

④ 应急预案能为组织对系统恢复提供操作指导

⑤ 应急预案要清晰、简洁、易于执行,可使用检查列表

⑥ 应急预案定期开展培训,至少一年一次

(4) 组织培训和开展应急演练

相关人员了解应急预案目标和内容,熟悉操作流程。具体执行工作:

① 制定演练计划、脚本

② 组织培训,讲解预案、计划、脚本

③ 对演练过程记录

④ 保障演练过程不影响业务

(5) 应急响应工作总结

① 对应急响应工作分析和回顾形成总结报告,作为改进工作及信息系统的重要依据

② 应急事件总结、应急工作审核的结果作为应急准备工作的改进要素

根据总结报告建议项和评审结果完善信息系统,深化应急工作