爱分析数据科学与机器学习平台实践报告案例精选:力维智联助力某石化企业建设工业大数据分析建模平台
近日,国内领先的产业数字化研究与咨询机构爱分析发布《自主AI能力加速企业智能化转型:2022-2023爱分析・数据科学与机器学习平台应用实践报告》。
随着数据体量的快速增长、算法迭代优化以及CPU、GPU、DPU等多种算力技术的发展,以大数据建模为核心的机器学习技术正被企业广泛应用到营销、广告、风控、生产等场景中。
数据科学与机器学习平台为企业提供了一个高效的解决方案。数据科学与机器学习平台整合数据接入、数据准备、特征工程、模型训练、模型部署、模型管理及模型运营等模型开发全流程,集成丰富的模型开发工具,不仅能有效提升模型开发效率,还能基于AutoML实现低门槛建模,满足业务人员的建模需求。数据科学与机器学习平台正成为企业数智化转型的必要基础设施。
工业数据科学与机器学习平台实践
工业互联网趋势下,以AI模型为核心的人工智能通过融合工业机理知识与专家经验,实现设计创新、生产优化、产品智能检测、智能运维等价值,正广泛应用在企业的设计研发、生产制造、运维、供应链管理、产品检测等场景中。人工智能已经成为工业企业提升生产效率、提高产品质量、降低人力成本、实现环境可持续发展的新型基础设施。
力维智联助力某石化企业建设工业大数据分析建模平台
某石化企业是一家集石油化工、煤化工、石化产品销售为一体,配套齐全的大型炼化一体化企业,原油加工能力2200万吨/年、芳烃生产能力100万吨/年,加工规模和技术水平位居国内炼油企业第一梯队。
近年来,该石化企业积极推进信息化工业化两化深度融合,基于工业互联网提出“智能炼厂”,在装置优化、计划优化、供应链优化等环节推进相关应用研究。目前,该企业工业互联网已广泛应用于工艺、设备、HSE、能源、经营管理、物流等领域。
与此同时,炼化企业为应对低油价与成品油市场寒冬,纷纷以生产优化为核心深入实施降本增效,进而对生产模型精度、模型开发效率以及模型应用广度等都提出更高要求。
而智能建模技术作为“智能炼厂”的核心技术,以炼油生产为“目标函数”,能通过快速创建智能化应用,为安全生产、降本增效提供智能决策,成为石化企业普遍关注的关键技术。加氢装置(包括加氢精制、加氢裂化)是石油炼化企业的关键环节,该石化企业希望通过敏捷建模实现炼化生产智能化。
既有建模方式门槛高、难应用
针对生产优化,该企业早已应用基于机理的传统优化建模软件如Aspen、Petro-SIM、ProII,同时也在尝试基于机器学习算法的大数据建模技术,如将炼化机理知识与深度学习算法相结合,已经实现加氢装置原料油换热器结垢预测、加氢催化剂床层温度预测等场景的智能化应用,并取得了较好效果。但两种建模路径都难以满足业务需求,使企业处于“有数据、无模型、有模型、难应用”的被动局面,具体痛点表现在:
1)技术门槛高。基于机理的传统优化建模严重依赖专家经验以及国外厂商提供的优化求解软件,且建模软件模型收敛慢,调优复杂。而机器学习建模过程涉及数据准备、特征工程、模型构建、模型部署,也严重依赖具备专业建模能力的数据科学家。该企业缺乏懂建模也懂业务的专业复合型人才,同时高技术门槛阻碍了建模技术在企业炼化场景的广泛推广应用。
2)建模周期长,建模成本高。传统优化建模和机器学习建模都存在着“大数据、小任务”,执行任务单一的特点。其建模过程中数据体量大、开发难度大、研发周期长,而开发的模型仅能适用于单个“小场景”。如果想覆盖炼化过程的更多场景就需要定制化的开发多个模型,导致两种建模方式均投入巨大,难以快速为企业带来效益提升。
3)模型部署难。在该石化企业业务中,当机器学习算法模型训练完毕部署到生产环境中时,数据采集、预处理和边缘推理计算时均受智能设备影响,AI模型的实际效果与智能设备的选型、接入、点位选择以及人力调试密切相关。然而该化工企业智能设备来源广泛,不同生产领域的设备型号各异,缺少统一的接入标准,且设备安装、接入和调试需要耗费大量人力,导致模型在不同生产领域部署时均需以项目课题形式实施,模型部署难也进一步制约机器学习建模在企业的推广应用。
建设一站式炼化工业大数据分析建模平台,支撑深度学习算法推广应用
鉴于机器学习建模在前期实验中的出色效果,该石化企业决定将深度学习算法进行推广应用,将“智能炼厂”推进“深度编码”阶段,通过先进的技术手段,如容器化、分布式计算、低代码等技术,实现对深度学习算法在炼化领域落地的助推。而实现深度学习算法的推广应用,需要大数据建模平台做支撑。该石化企业考虑到自建大数据建模平台成本投入大、技术难度较高,如分布式计算环境对硬件资源要求高、大数据组件的开发与应用难度大、模型部署对接各个系统复杂性较高等,于是决定与第三方厂商合作,综合考虑行业服务经验、核心技术能力、兼容性、成本等方面,最终选择与力维智联合作。
力维智联成立于2005年,是国家高新技术企业,凭借泛在数据接入与汇聚和大数据智能等AIoT技术和十余年AIoT系统集成交付能力,提供软硬一体的行业AIoT产品、解决方案与服务。同时,力维智联通过低代码机器学习开发平台提供AI开发工具软件和AI中台解决方案,该平台已服务于上海世纪出版集团、南方电网科研院、中海油、航天科技、国家5G中高频器件创新中心等企业和公共服务平台。
在力维智联的协助下,该石化企业在既有工业互联网平台架构下,针对石化煤柴油加氢装置构建起一站式炼化工业大数据分析建模平台,集成数据预处理、主流机器学习算法、智能优化算法和模型自动训练方法,最终实现生产数据到模型应用的端到端建模平台。
图1:工业大数据分析建模平台在工业互联网的位置

图2:工业大数据分析建模平台架构示意图

1. 工业大数据分析建模平台架构
工业大数据分析建模平台处于石化工业互联网的工业PaaS层。架构上,工业大数据分析建模平台分为数据分析引擎和数据模型用户端。
1)数据分析引擎
数据分析引擎分为底层架构和业务架构。底层架构由Spark、MongoDB、Java Client、Webserver等技术组成。业务架构包含数据读入、数据处理、特征工程、机器学习、深度学习、智能优化、AUTOML等模块。数据分析引擎主要提供数据分析与挖掘、特征工程与模型训练功能,其中数据分析还包括数据输出及数据可视化。
2)数据模型用户端
数据模型用户端底层架构由Java Client、Azkban、Redis、Java Springboot等技术组成。业务架构通过数据视图——算子流构建——模型管理——模型工作流——模型服务——发布应用构建起来。数据模型用户端支持多种数据库接入,但不对接入数据进行存储,该石化企业另部署数据库进行对接。
数据模型用户端主要提供用户权限管理、资源的定义和管理、任务调度以及数据的呈现,其中资源包含数据视图、算子流、工作流和应用等。
2. 工业大数据分析建模平台功能
基于以上架构,工业大数据分析建模平台覆盖数据准备、统计分析、数据可视化、特征构造、模型构建和模型部署等智能应用开发全流程。具体实现了以下功能:
1)提供丰富的算法:平台包含的算法主要分为两部分,一是通用数据科学挖掘算法,包括数据预处理和主流机器学习算法;二是优化算法,包括模型自训练算法和智能优化算法。一线炼化工程师可以根据自身需要设计算子流,对多种格式的数据数据进行预处理,或是根据业务场景进行建模。
2)炼化数据与大数据融合:一方面,平台通过预置炼化过程“工艺、质量”等领域专题数据集固化先验知识,并对工艺特征工程进行迁移,为大数据算法落地提供特征模板与数据基础,将工程师的专家知识固化到平台;另一方面,平台预置丰富机器学习、深度学习算子,可为不同炼化过程大数据建模场景提供算法与数据的适配融合。
3)实现低门槛建模:一方面,基于应用引擎、算子流和工作流的编排功能,工业大数据分析建模平台为炼化工程师提供无代码的图形化“拖拉拽”建模支持,通过连接任意算子形成算子流,可便捷实现数据预处理、模型设计、训练和部署。另一方面,平台支持无代码的模型自训练(AutoML),包括自动数据准备,自动机器学习,自动模型调参,大大降低炼化工程师的建模门槛。
4)提供智能应用开发:模型部署后,平台提供API服务的方式供其他业务系统调用,同时也支持借助BI+AI图标和控制组件开发动态可交互的可视化应用。
5)资源分布式、项目制管理:通过集群部署,平台实现了模型训练算力与推理算力资源的分布式管理,以项目为单位,对数据资源和硬件资源进行精细化管理控制。
6)软硬件兼容适配:力维智联在平台部署时使用了容器化技术,对国产化软硬件进行兼容性适配开发,保证平台顺利部署、稳定运行。针对数据接口接入,力维智联通过适配该炼化企业自有的工业互联网平台数据微服务接口,完成了炼化数据接入,保证数据流转畅通。另外,平台还额外提供了ETL能力,对数据进行治理与融合,实现算法建模前对数据进行预处理。
7)完备的流程管理:平台提供从数据接入、数据分析处理、数据展示、特征工程、模型管理、模型部署以及智能应用上线一站式实现和管理。
工业大数据分析建模平台显著提高建模效率、转变模型开发方式
该石化企业通过大数据低代码建模平台,解决了炼油化工企业“有数据、无模型;有模型、难应用”、“建模成本高、建模周期长”的问题。通过实践证明在预测误差、利润产品收率、建模周期等方面均得到显著改善。
1)模型性能提升,预测误差降低
基于大数据建模平台开发的“多通道多尺度卷积神经网络(MCMSCNN)”模型在加氢催化剂床层温度预测、氢气耗量预测方面误差<3%,提升了炼化工程师对核心工况参数的监控把握,大幅降低氢气、燃料气等生产成本。
基于低代码平台开发的“大数据预训练+工艺数据微调”迁移算法解决了因LIMS(实验室信息管理系统)化验分析数据量不足而造成的产品性质预测模型性能不佳的问题,实现了加氢裂化产品性质的实时软测量,利润产品收率提高约0.8%。
2)建模门槛降低,建模周期大幅缩短
数据智能建模平台实现了生产装置海量数据的有效利用,从数据采集到模型部署,由2周大幅缩短为1天。其中建模环节,因平台支持通过建立与炼油装置有关的工艺和质量的专题数据集来固化先验知识,迁移建模特征,为大数据算法落地提供特征模板与数据基础,使建模时间由原来的一周大幅缩短为8小时,建模效率大幅提高。
此外,该石化企业内的模型开发工作也实现了“去中心化”,从原有信息中心的个别工程师在实验室开发,转变为一线工程师结合生产问题广泛开发,有效赋能生产。
3)模型资产实现复用
由炼化工程师自主研发的10余个机器学习模型,日调用量超1000余次。
厂商选型和企业科研意识是大数据低代码建模平台落地关键
该石化企业通过建设低代码工业大数据分析建模平台实现加氢装置多环境的优化,取得良好效果,其成功经验可以复用到炼化行业生产工艺环节、其他流程行业企业,或是供已建设工业物联网的企业借鉴,主要包括以下两点:
1)厂商选型
石化企业的生产流程具有显著行业特点,生产环境复杂,对产品的稳定性、可靠性要求苛刻,且石化企业普遍不具备建模能力,建模平台完成后需提供完善的售后服务。因此厂商应具备以下能力。
l 厂商应具备工业、制造业或是能源行业的服务经验,具备一定的行业Know-how积累,理解行业工业互联网要求、了解企业业务流程。
l 厂商产品须为自主研发,能针对企业个性化需求进行定制化开发。
l 厂商产品及技术应兼容国产化软硬件环境,能够在国产CPU、AI加速芯片以及操作系统上稳定运行。
l 厂商应能提供数据分析师、数据科学家为企业提供培训教学,让一线工程师快速掌握基础概念,结合业务案例,通过实训的方式让工程师掌握平台使用技能。
2)企业自身对数字化、对科研的重视
一方面,企业需要有强烈的科研意识,能够紧跟新技术发展,勇于在自身业务领域进行创新;另一方面,企业管理层对工业互联网、对数字化建设的重视也是机器学习建模平台能顺利落地的保障。