作为我国传统的能源支柱行业,展望2035年,煤矿行业的数字化建设将发展成为知识密集型、技术密集型行业,数字化发展整体达到全国先进水平。
在“双碳”目标和我国煤炭主体能源地位的双重推动下,煤矿行业的数字化转型进程正在加速迈进。
而智能运维在帮助煤矿行业, 提高生产效率、降低运维成本、提高安全性、促进数据驱动决策 等数字化转型建设目标达成的过程中,发挥了重要作用。
也是煤矿行业数字化转型和高质量发展的有力支撑。

本期【 案例优选 】,以 某大型煤矿企业 为例,与您一起分享,北塔软件智能运维如何助力煤矿行业的数字化转型建设,保障国家的能源安全。
用户背景
某大型煤矿企业,公司总资产超三十亿。
生产规模750万吨/年。
该煤矿以安全本质化、装备现代化、监测数字化、控制自动化、管理精细化、矿区文明化为要求,着力打造地区安全高效现代化矿井。
运维挑战
(1)运维人员有限、运维工作任务重
煤矿行业目前主要涉及:
- 三张大网(办公内网、工业内网、互联网)
- 多种业务平台,数据库、存储AC、AP设备等。
- 运维涉及到多个厂商、各种类型的软硬件设备
- 但因运维人员有限,不能保证每次发生异常都能及时发现和处理
缺乏 统一监测、规划、管理的运维工具。
(2)设备运行状态差异度较大,难以及时感知故障
- 因缺乏统一监测管理手段,各网络设备、线路、服务器、存储等资源无法做到准确的性能监控
- 当前人工管理手段对于核心业务相关的网络质量、资源占用情况、进程、系统日志、硬件等信息,无法做到持续的实时监控,不能完全保障业务系统的正常运转
缺乏 实时监测、故障预警、统一管理的运维能力,变被动为主动的运维模式。
(3)缺乏可视化的展示平台
- 现阶段需要对包括网络系统、业务系统等提供更直接的图像化展示
- 将运营数据可视化呈现
- 将网络中的交换机和服务器及其相互的数据传输和连接用可视化呈现
- 实现自定义可视化页面展现
缺乏 对业务情况,整体IT系统建设情况,统一展示的可视化的展现平台。
(4)缺乏自动化管理工具
- 需要实现可以通过统一的平台对设备进行管理配置
- 需要可定期执行一些内存、cpu、磁盘等设备检测的自动化运维手段
缺乏 对运维难度大、远程困难、对批量及自动执行脚本不易实现的快速运维能力。
运维需求
网络管理需求
煤矿行业网络环境较为复杂,主要涵盖了 办公内网 、 工业内网 、 互联网 三张大网的管理。
由于运维人员有限,运维手段不足,并且缺少对整个网络环境直观了解的手段。
故需要一套可视化监控软件来解决三个网络环境中对网络设备、安全设备的运行情况监控及告警问题。
针对网络管理的需求,重点需要实现:
- 对设备运行情况、线路状态监控以及远程访问管理设备的能力
- 通过可视化运维平台展现设备真实面板图
- 辅助运维人员进行故障处理、准确定位
无线管理需求
现场网络往往包含无线设备,一般设备数量都较大。
在运维过程中,因为缺乏及时告警通知平台,运维人员往往在故障发生后才能知晓,进而导致影响各部门的使用体验。
针对无线管理需求,重点实现:
- 对AC设备、AP设备的运行状态以及设备连接情况、在线状态、运行负载的监控
- 通过可视化的拓扑图了解设备整体的连接情况,辅助运维人员完成管理
系统运行管理需求
现场涉及操作系统、数据库、中间件、应用数量较多,且不能清晰了解到服务器上运行的数据库、中间件、应用都有哪些,只能靠人工手动去进行统计获取,且存在统计缺漏风险,对于软硬件层面的重要性能指标也不能及时发现问题,导致业务系统不定时中断,运维难度加大。
根据系统管理需求,重点实现:
- 对操作系统、数据库、中间件、应用的性能数据监控
- 所属关联统计展示、服务器硬件的状态监控、数据异常的故障预警,来提高整体业务系统的运行稳定性
自动化场景管理需求
根据现场设备情况,需制定针对各设备进行自动化执行脚本的场景管理模板,快速收集告警信息以及进行处置。
针对自动化场景管理需求,重点实现:
- 根据日常运维业务管理思路,将原本需要手工查询、反复操作的复杂的工作,编排为有流程、有逻辑的运维场景,转化为各项日常运维工具,减轻运维人员的工作量,提高工作效率
可视化展现需求
在完成对煤矿网络的整体监控后,需要实现重要设备的性能数据、告警信息通过通过大屏展现出来,与现场第三方平台进行结合嵌入,形成统一展示的大屏。

北塔软件智能运维解决方案

01
网络管理
根据拓扑生成算法,快速搜索整个网络内的网络设备,智能分析网络拓扑结构,自动勾画出整个网络的真实物理拓扑图,真实反映整个网络的构成状况
除拓扑生成之外,还支持拓扑添加功能,在保留原有拓扑图的基础上,搜索新的网络设备,并自动添加到网络拓扑图上
拓扑算法快速、准确。内部采用特有的拓扑算法,并融合了CDP算法、NDP等多种常用算法。确保能够快速、准确的自动生成物理拓扑图
支持跨广域网分布式部署拓扑引擎。可将各引擎的拓扑搜索结果上传到中心进行汇总,创建出一张完整的拓扑图,实现统一展现
设备厂商支持广泛。能够支持 100多 厂家的 1600多种 型号设备,且能支持多厂商的设备组成的“混合”网络

网络拓扑图可从全局角度出发,帮助运维管理人员实时了解整个网络当前的运行状况,主动告诉用户关注点应在哪里,网络架构是否合理,有无网络瓶颈,设备和流量有无异常等,动态告诉用户可能的故障隐患,达到透明化、事前管理目的。
监控结果展现直观
- 可以通过红、黄、绿等不同颜色表示网络设备和线路负载压力的评估状况,并可以调整设备和线路的变色阈值
- 可以通过不同颜色的告警图标,显示各个网络设备的告警触发情况
- 可以为拓扑图上的每台设备、每条线路设置中文名称,添加注释,方便进行管理
界面美观
- 提供背景图的更换设置功能,可自由选择精美的图片作为拓扑图背景
- 提供了灵活设备图标的拖拽功能,可以自由设定图标的摆放位置
- 提供设备图标大小自适应功能,可以根据连接线路的数量自动调整设备图标大小
- 提供拓扑图的放大、缩小功能,可以将拓扑图调整到合适的展现尺寸
- 提供大屏展现功能,可以在大屏投影的情况下提供友好的显示效果
操作便捷
- 提供鹰眼功能,可以总揽全局,并快速地浏览、移动拓扑图
- 提供便捷的缩略图、拓扑图创建和维护功能
- 提供多种常用管理工具:服务端Ping、SNMP测试、Web管理等,可供用户直接调用
- 提供快捷的设备实时信息查看功能,可以快速地查看指定设备的MAC表、ARP表、路由表、端口信息表等内容
02
无线管理
无线管理是有线网络的扩展,通过对无线AC这个特殊设备的业务层取值,获得AC下所连AP的关系、AP的性能信息、接入用户信息,将无线终端纳入到管理系统中
因无线设备的特殊性,支持AC、AP和网络设备的混合拓扑展现方式,同时需要支持无线AP和环境布局的专有展现拓扑
混合拓扑支持有线路由、交换设备和AC、AP的同一拓扑展现要求,拓扑图上必须提供无线设备的CPU、内存等基础性能动态展示;对于AC设备应该在具备基本网络设备的管理信息的基础上,增加在线AP数等无线模块特有管理指标
无线热图支持AP节点在各个地域中的布局,并支持总体AP数量、离线AP数量、离线率的统计。无线热图支持AP告警状态以及性能负载的显示,可以根据不同AP本身承载和部署能力,设置红、黄、绿不同的颜色范围

支持AP和上联接入交换机的关联关系的自动识别和构建,以此为基础自动构建出终端- AP-上联交换机- AC的无线传输线路
提供无线传输线路的关键节点性能诊断,从而快速定位终端无法上网或者网速慢的原因
诊断路径至少包含如下信息:
AC:状态、关键性能、上联端口性能
上联交换机:状态关键性能、AP接入端口状态、端口带宽利用率
AP:状态、关键性能、wlan总流量
终端:上线时间等

03
系统管理
系统管理独创系统拓扑功能,全局性监控各个管理组件的当前性能状态和告警状态,一眼监控全局
从数据运行趋势角度,定位异常设备,找到CPU、内存、流量、存储运行趋势有违与之前平稳状态的设备,帮助用户快速定位异常点
系统拓扑以主机为核心,展现了所有承载的数据库和中间件、标准应用之间的实时状态监控,为主机监控提供全景视图;系统自动生成并智能布局,无需人工调整

系统支持以IPMI方式为主体监控方式的硬件管理,IPMI方式属于主板层面的监控,是以带外管理模式监控服务器的硬件状态,支持各类信创厂商的服务器,包括联想、曙光等
带外管理模式可以在服务器操作系统无法启动时,感知到具体的设备异常,避免用户在定位服务器问题时需要打开机箱的麻烦,从而实现远程运维
硬件服务器管理
- 对于硬件服务器的监控,系统从异常状态和开机时长两个维度为用户进行全局归类,支持各项存在异常状态的服务器进行分类查询,实现在大量服务器管理场景下的快速问题定义
- 在服务器管理中开始时长也是一个重要管理指标,通过开机时长可以快速判断服务器是否稳定运行
数据库管理
- 数据库专项管理支持对所有数据库的统一分析和处理;端云监控支持Oracle、DB2、MySQL、Microsoft SQL等多种类型的数据库监控;数据库管理以操作系统管理为基础,实现主机和数据库协同管理
- 数据库增加方式支持手工增加和批量导入模式;支持用户以模板为基础修改的资产清单的导入
- 支持对于各个数据库实时运行状态的实时统计,包含数据库会话数、死锁数实时排行
中间件管理
- 中间件管理对通用定义中间件的管理,包含了应用服务器、消息中间件的的管理,端云监控支持MQ、webologic、websphere的非集群管理;实现用户对于中间件的基本状态和承载业务的基本状态监管
- 对于MQ管理系统中重点关注所在主机性能和通道、队列信息
- 同时提供特别关注功能,记录用户业务相关的通道和队列信息
标准应用管理
- 支持文件传输应用(ftp)、网页服务(http)、邮件服务(pop3、smtp)的监控。支持加密传输协议,包括Sftp、https的监控
- 支持图形化方式显示应用的承载主机状态和应用的基本性能信息
04
自动化场景管理
DIYOPS场景,以自然语言、图形化呈现运维业务语句,用户通过简单拖拽,无需代码编程,即可编排出运维场景。依托北塔强大的监控采集平台,用户可以根据日常运维业务管理思路,将原本需要手工查询、反复操作的复杂的工作,编排为有流程、有逻辑的运维场景,转化为各项日常运维工具。

告警联动触发,实现故障分析
系统提供告警/事件联动触发,执行构建的客制化场景程序。
支持通过对故障对象、关联对象现场关键指标信息快照、数据判断、运维通知、自动化处置等业务语句的场景编排,构建针对故障对象的原因分析与操作处置场景。
结合告警等事件联动,实现故障对象发生时刻,关键数据的获取与联动判断,实现故障原因深入分析与相关自动处置操作,解决了突发故障原因难以溯源、分析与及时处置的问题。
客制化复合指标算法,实现运维经验落地
DIYOPS支持任意组合各项已有指标,通过对已有指标的数据处理与组合检测,构建成用户需要的更具业务意义的管理状态指标。
支持对组合指标进行告警、记录历史数据,运用到日常运维管理过程,实现运维经验的落地。
客制化定期任务,定期执行
软件提供各种操作和查询类语句,通过这些语句结合用户管理场景需求,可以构建出需要定期执行的自动化控制任务,自动化统计任务,自动化巡检任务。定期任务可包含按日,周,月的为周期的任务执行,也可以指定 特殊保障时段的执行调度机制。
定制执行模式可以解决一些突发保障任务的提前部署要求。
模板化复用专家经验
时刻网 (www.betatime.com.cn)用户业务专家,持续将运维工作中的经验,编排为各式运维工作场景并转化为模板,进行在线分享,供全网用户*载下**应用。
DIYOPS支持场景模板的在线加载与应用,用户加载模板后,仅需将模板中涉及的对象进行本地实例关联,即可快速复用或借鉴模板的业务场景,实现运维专家经验的快速复用和落地。

05
可视化场景
现场对于可视化的要求可以通过自定义首页功能实现。
该功能提供基于角色的个性展示功能,用户可以自行选择不同管理重点指标以及展现方式,以便以一图完成所有重点监控

系统至少提供TOP表格、TOP柱状图、性能曲线图、单值图等多种展示方式
支持对于所有数值型数据的统一排序、历史记录展示

同时支持第三方平台页面的嵌入

应用展望
煤矿企业作为传统的能源行业,也面临着数字化转型的迫切需求。智能运维作为数字化转型的关键环节,将在煤矿企业中发挥重要作用。
随着科技的不断发展,数字化转型已成为各行各业提升效率、优化管理、降低成本的重要手段。
- 智能运维通过智能化技术,实现对矿井设备的实时监控、故障预警和自动处理,提高设备的运行稳定性和可靠性,减少故障停机时间,而提升煤矿企业的生产效率和安全性。
- 智能运维通过数字化技术和大数据分析,可以对煤矿生产过程中的各种数据进行分析和挖掘,为企业的决策提供科学依据。
- 智能运维还可以促进煤矿企业的绿色发展,实现“双碳”目标。
总之,智能运维在煤矿企业数字化转型工作中具有广阔的应用前景。通过智能运维的应用,可以实现煤矿企业的数字化转型和高质量发展,提升企业的竞争力和可持续发展能力。

声明| 为保护用户隐私,文章所有配图为实验室数据或已隐去相关信息