保险产品的数据结构 (保险数据模型)

作者:国任财产保险公司数字化战略与运营中心大数据及人工智能部

随着金融保险在数智领域的不断革新,各保险主体均大力推进数字化转型工作。国任财产保险股份有限公司将数字化转型作为重大发展战略,坚定不移走市场化、数字化、集团化发展之路,致力打造极具价值与活力的科技型保险集团。在数字化转型中,贯彻IDES(保险+数字+生态+服务)的建设理念,力求完成数智赋能、敏捷协同、体验至上、开放共赢的目标,以产品创新为驱动,完成客户价值增值。

本文以三个具有国任特色的数据产品和数据模型为例,分享国任保险“数字化算力底座建设、数字赋能产品、数据模型应用”三步走的数字化建设路径及金融数据智能应用实践。

第一步、构建数字化算力底座,突破数据壁垒

国任保险以需求为驱动,紧密贴合业务场景,采用迭代、分步建设原则,打造ogg+kafka+flink分布式架构,链接前台用户和后台核心资源,将业务能力下沉到中台层,形成高效统一的业务数据出口。2021年11月,数据中台一期上线,大批量数据计算性能大幅提升,数据批处理时间缩短至1小时/天,效率提升9倍;同维度、指标查询时间缩短至10秒,报表查询性能提升50倍;以BI为抓手开展新平台数据宣导工作,获得较好业务反馈。

2022年,数据中台在已完成数据模型架构搭建、多数主题域建设的基础上,在数据服务、模型迭代、报表迁移、管会重构、一致性校验等领域开展迭代建设,提升数据中台服务能力,为不少于12个系统提供40个以上的服务,将数据业务化,盘活数据资源,提升科技赋能能力。通过自动化校验、对账流程,完成数据一致性校验,保障系统间数据流转的完整性、一致性,保障与第三方系统交互数据的一致性,降低监管核查风险。

底层数据源的整合及数据主题域的建设,直接影响数据赋能的效果,数据底座建设过程中重点实现以下突破:一是建设统一的数据服务总线,构建接口集市,打造国任特色数据湖,实现数据—>应用的全链路打通;二是构建承保、理赔、收付等多数据源的统一数据湖,由单一的数据库贴源、加工到应用层输出的模式,变更为“ODS贴源层-DWD明细层-DWS汇总层-DM宽表层-APP应用层”的全链路新架构模型,实现高效的实时流处理;三是鉴于车险集市、非车险集市、农险集市的数据结构及业务维度的差异,在DWD明细层进行分域集市建设,减少不必要的资源消耗,便于锁定数据问题,提升数据计算及查询性能。

第二步、打造数字产品,赋能经验管理

基于上述数据中台底座,国任保险由此建设了可赋能业务运营的数字产品。本文以“数智经营雷达”产品作为示例,展示国任保险数字化建设过程中,通过建立健全规范化的指标体系、指标标准、指标规则,逐步实现经营可视化,发挥数据在经营分析、辅助决策、运营监控、风险预警等方面的作用的实践经验。

通过“两步走”开发规划,“数智经营雷达”产品陆续上线了20个经营重点指标。通过分析、预警、归因、推演等管理功能,实现经营管理全景、全维的即时线上化、可视化。

1.业务层面的主要功能

(1)统一精准展示

以数据湖的形式汇集核心系统(承保、理赔、销管、ECIF、收付等)数据,对既有业务数据进行抽取、建模、快速分析、呈现,相对复杂的业务数据简单化,把抽象的业务数据形象化。具体包含:一是打破信息孤岛,对各类数据源统一归口;二是数据可读易用,按照渠道、机构、险种、商品、时间对保费、成本、理赔等相关数据分维度分析展现,提高数据易读性;三是业务经营预警,对重点业务经营状态进行监控,呈现红黄蓝的数据预警状态,对波动数据及时做系统级主动触达;四是降低管理成本,通过固化数据分析模型的方式,将分析能力泛化至可视化大屏上,提高业务管理效率。

(2)统一监控入口

通过移动端、PC端的数智经营雷达检测平台,收集公司经营数据,搭建数据指标平台,为管理层提供决策依据。其中,PC端实现从业务数据化到数据业务化的转变,提供直观的数据可视化交互分析;移动端集合沉淀的数据,实现精准高效的数据结果监测。

(3)精准归因分析

整合公司数据资产,对公司主要经营指标进行归因分析。

(4)预警监控

通过数字技术实现预警监控,可根据数据检测结果定期开展经营分析。

(5)经营指标趋势分析

实现对一期项目开发的20个经营指标的趋势分析回溯查看。用户可在PC端、移动端自主选择重点经营指标及时间,实现任一经营指标在任一时间内的变化趋势展示,助力各级管理人员进行趋势跟踪分析、掌握数据动态变化情况,及时调整经营策略。

(6)自动生成经营分析报告

自动化生成截止当前的经营分析报告,减少从BW系统、报表系统等提取相关基础数据并进行人工加工处理的人力时间。以一期项目开发的20个经营指标为基础,从KPI指标、渠道、机构、产品等维度出发,自动化生成适用于各级管理人员的“经营分析报告”,并聚焦绩效、发展、成本等经营问题,形成常态化数据监控报告(月度、季度、年度),实现经营分析从数据可视化到报告自动化的体验升级。

2.架构层面功能及产品特色

架构层面,借助数据中台建设的集成数据湖,以分布式数据仓库为依托,将业务层、缓存层作为中间层,连接至前端的移动端及PC端驾驶舱。

(1)多源准实时同步

利用OGG与CANAL的高效同步效率,快速有效的捕获多种不同源(承保、理赔、收付、再保、ECIF等)业务系统变化数据,准实时同步至数据中台,及时为数据分析提供有力支撑。

(2)MPP架构的高可靠性

利用数据中台MPP架构的多分片副本策略,双活集群。支持多租户,采用灵活的资源分配管理策略,对海量数据进行大表关联查询、统计、分析。

(3)经营管理闭环

围绕“归因分析、经营诊断、经营推演、经营督导”四大功能模块,形成经营管理的闭环,全链路监控业务经营脉络。

①归因分析: 各级管理者可自助选择常用的分析主题指标,采用指标归因分析+驾驶舱两种不同的展示形式结合进行分析展示,加持不同的分析维度,根据预设的各项指标红黄蓝规则,系统自动识别出异常的指标数据,助力管理人员分析决策,找到指标异常的影响因子。

②经营诊断: 可通过机构、渠道、产品三大维度任意组合对业务、财务等主题指标进行多维分析,通过获取同比、环比、平均值等数据参考维度进行精细化诊断,助力实现算账经营方位、方法和目标的评估及制定。

③经营推演: 实现经营推演功能,助力经营战略布局。

④经营督导: 监控跟踪经营推演布局情况。

(4)数据可视化智能化

可实现经营管理数据可视化、数据分析便捷化、监控预警智能化、跟踪督导自动化,全方位赋能各层级管理人员,及时洞察、行动、跟踪。

(5)多重组合精细化分析

为公司各级管理人员提供自助选择添加重点关注的经营分析指标,结合指标归因分析以及驾驶舱看板的组合展示,根据预设的各项指标红黄蓝规则逐层下钻分解,检测“红黄”数据的根源异常,同时加持不同的分析维度,自动识别出异常的指标数据,助力管理人员进行跟踪分析,找到影响指标异常的关键因子,实现经营预警。

第三步、数据模型首次应用于续保运营领域,提升续保率

随着国任保险对车险续保业务管理力度的加大,续保工作已经实现管理流程化、流程系统化。公司已初步具备大体量数据的算力支撑能力,故应用传统及新兴的机器学习算法内核对某特定车架号在当前保单到期后是否续保进行神经网络及复合决策树预测,即预测该客户群体到期续保的可能性。本模型通过分析公司内部的车险客户信息,借助机器学习算法,帮助业务员在内部销售平台“i国任”上预测潜在客户未来的行为模式。

模型具有稳定、准确的预测能力。算法核心的续保率预测模型从增益角度进行分析,在将考虑了时效性因子的测试数据预测结果进行十层的离散化分析后,模型结果相较均值增益成几何倍数提升。续保模型于2021年年底正式接入“i国任”系统,模型投产后,在较短时间内公司续保率迅速提升,提升超过7.7%。

从国任保险当时的数据现状、业务特色上看,存在如下亟待解决的问题:一是客户数据多,人工处理难;二是客户质量、续保率难以兼顾;三是数据结构复杂,前端业务人员理解困难。

针对上述问题,采用每天以10万级的规模处理前一日最新流入的到期保单,并接入前端业务软件,成功将学术论证落地为了有业务价值的T+1分析结果,且预测分析结果准确、可靠,时效性及应用性强。传统T+1数据推送多为单一流数据,即每日对当天的数据进行预测并推送。但此模式在车险续保预测场景下,存在因续保单质量不稳定(政策、分支公司运营情况、管理人员管理方式、业务员操作习惯等原因)而导致预测不准确的问题。

为此,多数公司在应用此类模型时为了便于可视化,大多使用相对增益分层的处理方法,但此方法极大地依赖数据的稳定性,日间的数据波动向来是前端可视化的一条鸿沟:当天优质的应续客户,相较前一天的数据只是普通的应续客户,即使数据模型的本身预测内容准确无误,也会极大地影响应续业务的推进及模型的可信度。本算法模型在前段展示过程中,采用了10日回溯的对比方法,即在不改变模型算法的前提下,相对增益分层混入T-10~T-1共计十日的对比数据,并在分层完成后将对比数据剔除,将日间数据波动率下降70%,同时仅10日的额外数据可以在最小程度上影响数据流动的效率,有效解决了业务日间波动的问题。由此,续保率模型已初见雏形,未来将不断迭代,打造更具市场价值的数据挖掘模型。