
为保障人民群众用水安全,为何要大力发展智慧水务?
智慧水务与全国人民的用水安全关系密切,指通过运用云计算、大数据、物联网、移动互联网等新一代信息技术,对水务信息进自动化、数字化和智能化处理,最终达到 保护生态环境、节约水资源、保障人民群众用水安全 的管理目的。

智慧水务涉及到了 大量IT设备的有效管理,海量数据的采集、分析,业务系统稳定运行的支持和保障 。因此,在全力推动“智慧水务”建设、保障水务工作数字化转型的过程中,IT智能运维发挥了极其重要的作用。
北塔软件本期【 案例优选 】,以 某大型水务集团 项目为例与您进行探讨,智能运维如何保障智慧水务系统的稳定运行和高效管理,从而提高水资源利用效率和保护环境质量,推动城市水务的可持续发展。
用户背景
某大型水务集团是集原水、自来水、污水处理、水环境综合治理、清洁能源、科技服务等多种业务于一体的水务全产业链大型服务运营商。
服务人口 :近 1亿
数据中心规模 :
- 应用系统: 近100套
- 物联网设备: 几万+
- 注册用户规模: 300余万

运维挑战
1.运行“监控”效率不高
- 用户被管对象未能实现全面纳管
- 缺少网络拓扑和业务拓扑
- 无法做到7*24小时全天候标准化值守,不能满足应用系统业务连续性的保障要求
- 运行监控采用人工方式为主,使用电话、微信群等方式
- 日常运维管理工作主要依赖技术人员的个人知识水平及技术水平
2.人工资产“管理”难度增加
用户IT资产管理采用Excel表格统计方式,通过人工查询、更新、盘点的方式梳理资产台账来实现对业务和系统的关系梳理。
无法做到 监控+资产+CMDB数据 联动,缺少统一的数据标准。
3.问题“控制”响应较慢
缺乏有效的数据支撑,因此难以识别相关联的故障和问题,导致排查周期变长,难以准确定位问题,已严重影响业务系统的安全稳定运行。
4.等保安全运维管理要求迫切
网络安全法中明确要求应用系统建设要满足信创和等级保护相关要求。
运维目标
1.资源监控:
- 通过统一监控平台实现全面、7*24实时监控纳管
- 构建完整网络拓扑图,资源性能状态的实时监控和告警
- 构建统一CMDB数据底座
2.业务管理
构建业务拓扑图,以可视化的方式展示核心业务系统信息,实时监控各系统运行状态,及时响应运维故障和问题。
3.信息化运维
动态管理信息资产台账数据,规范运维流程和人员操作,有效地辅助运维管理的决策。
4.闭环管理
通过标准的运维管控流程以及自动化运维工具,串联起日常运维中“ 监 ”、“ 管 ”、“ 控 ”的全过程管理。
闭环日常运维工作,逐步降低对专业人员的依赖,达到以运维数据驱动运维工作的效果。

北塔软件智能运维解决方案

解决方案内容包括:
1.信创适配 平台基于ARM芯片实现监控及管理功能,满足信创环境适配需求。
2.统一监控纳管
监控对象覆盖核心网络设备、服务器、数据库、中间件等核心管理对象,统一管理并 构建出完整网络拓扑 。
3.统一数据标准
构建 统一CMDB数据底座 ,并对外提供数据接口标准,形成完整、及时、准确的IT运维数据。
4.资产管理
通过资产自动发现,做到 监控+资产+CMDB数据 联动,落地资产管理可行实践并将资产数据通过接口提供给三方系统消费。
5.业务拓扑
构建业务拓扑,以 可视化 的方式展示构成业务系统的监管对象间的逻辑关系。
6、自动化运维
采用 自动巡检管理 、 配置管理 、 DIYOps 等自动化运维工具,实现批量的设备和业务巡检、配置备份、告警处置等作业场景,并同告警工单联动,提升运维效率。

该项目主要分为以下4个步骤进行建设,每个步骤的实施落地,均能为用户的运维工作带来显著的运维效果和价值:

一、统一集中管理
北塔智能运维监控平台,可实现一套系统将所有纳管对象集中监控管理,做到核心设备 应管尽管 、指标 应采尽采 并形成统一的网络拓扑图、业务拓扑图。
实施效果
核心设备统一纳管
网络设备、主机、网络线路、数据库等关键设备指标应采尽采。
实现资源信息指标统一管理,包括状态、性能、计算能力等指标信息、支持历史数据回看,做到7*24自动监控。

构建完整网络拓扑图
自动识别设备、自动采集指标、智能发现网络设备和设备间的真实线路,构建网络拓扑,以可视化方式映射出网络架构,有效帮助运维人员进行网络分析、判断故障原因及进行问题相关性分析。

构建完整业务拓扑
通过CMDB建立业务拓扑图,一张图显示业务全部组件,将各项业务以及承载这些业务的各种网络设备、服务器、应用等有机组织在一起,同时对于每个业务系统能自定义各项业务拓扑图,将业务状况以简明、直观的方式呈现。

全局资源容量管理
覆盖全局纳管的主机资源。
对CPU、内存、存储等关键资源使用情况统计分析。
根据历史数据,通过AI算法预测后续资源容量使用风险并提前预警。

二、统一数据管理
通过自动发现、自动同步等多种手段,建立以CMDB为基础的统一数据底座, 监控+资产+CMDB 数据联动,数据可通过接口供三方系统消费。
实施效果
CMDB数据标准可行实践
- 落地行业可行的CMDB实践。形成了完整、及时、准确的IT运维数据、资产数据并对外提供接口,可供第三方系统消费数据。
- 实现对象之间关联关系自动发现、多源数据的自动调和,增加数据准确性。
- 通过资源分组实现分权分域灵活配置,支持用户自定义资源分类。

资产管理实践
根据用户特色,针对原先Excel文件维护的资产信息通过数据采集进行了核对、分类和校验 。
资产在线一键盘点
针对在线IT资产,为了提高盘点效率,实现了一键自动在线盘点功能,资产配置信息账实相符。实现大范围、高频度的资产盘点,且具有高准确性。

资产、监控、业务联动
以资产为入口,以业务视角对资产数据联动应用。
可以通过资产对本业务的监控对象的具体信息进行查看,也可以对本业务拓扑进行查看。



三、实时告警监控
7*24实时监控,通过 网络配置管理、变更自动发现、异常检测 等实时告警,及时通知运维人员处理问题。
实施效果
运维人员快速查看
一张自定义首页同时展现各类设备,便于运维人员对全局资源的快速查看以定位。

告警关联业务、工单
及时告知此告警关联的可能影响的业务信息及关联对象;自动触发工单系统联动,相应责任人技术处理工单,避免告警后无人处理。

网络风险提前感知
配置管理可自动按计划备份配置文件并检测配置文件内容是否发生变更,通知用户及时关注,提供了故障预警能力,并按需还原配置。

异常检测
通过人工智能算法,实现动态基线异常、突变异常、趋势异常检测。
例如:CPU负载、内存使用率、网络接口流量等。

四、优化运维工作
通过 巡检管理、配置管理、自动化脚本 技术替代人工重复机械性操作,优化运维工作、提升运维效率。
实施效果
摆脱传统手工巡检
通过系统自定义智能巡检的方式,如业务巡检、自定义资源组巡检实现定期巡查和报告生成,提高日常运维效率。


运维场景自主编排
用户根据日常运维业务管理思路,将原本需要手工查询、反复操作的复杂的工作,通过DIYOPS编排为有流程、有逻辑的运维场景,将日常运维工作中的场景化运维交给机器,提高运维效率,降低运维成本。

积累运维知识、经验
运维经验形成知识库,为企业积累运维经验。
降低一线工作量:400可以通过知识库解决大部分通用简单问题。


应用展望
实现水务业务智能化、精细化的管理和服务,是保障人民用水安全的重要举措,也是智慧水务的重要目标之一。
随着智慧水务建设的不断深入,越来越多的系统和设备需要高效的运维管理,以确保其稳定、可靠地运行。
同时,智慧水务涉及的数据量庞大、处理复杂度高,需要强大的运维团队和技术支持,以确保数据的安全、准确和及时性
并且,智能运维可以提高智慧水务的运行效率和服务质量,降低运维成本和人力投入,提升企业的竞争力和市场地位。
综上可见,智慧水务的建设已经无法脱离智能运维的助力。
未来,智能运维也将继续在更广泛的应用层面为智慧水务的建设发挥更有效的作用:
自动化监控 :通过智能化的监控系统,实时监测供水、排水、污水处理等各个环节的运行状态和参数,及时发现异常并预警,提高运维响应速度和准确性。
数据分析与优化 :运用大数据和人工智能技术,对智慧水务系统产生的海量数据进行处理、分析和挖掘,为运维决策提供科学依据,优化系统运行效率和服务质量。
智能决策支持 :基于数据分析和模式识别技术,为运维人员提供智能化的决策支持,辅助其快速定位问题、制定解决方案和预测未来发展趋势。
协同与共享 :打破信息孤岛,实现智慧水务各业务部门之间的信息共享和协同工作,提高整体运维效率和质量。
总之,智能运维在智慧水务工程建设中具有广阔的应用前景和发展潜力。随着技术的不断进步和应用场景的不断拓展,智能运维将在保障全国人民用水安全、促进智慧水务发展方面发挥持续而稳定的作用。

声明| 为保护用户隐私,文章所有配图为实验室数据或已隐去相关信息