文 / 招商银行信息技术部数据中心 张建林

正如招商银行田惠宇行长指出的,“移动互联网将成为下一个十年深刻改变人们生活方式的最大因子,金融科技将会重新定义商业银行的经营之道”。中国银行业正面临着业务场景、消费者需求与技术应用快速变化所带来的巨大挑战。按照《金融科技(FinTech)发展规划(2019-2021年)》指导思想,招商银行根据自身的整体战略目标和信息技术发展规划,在广泛汲取国内外同业成功经验的同时,结合自身业务的特点,启动并实施了全业务流实时监测及运营平台项目,希望通过应用地图和业务导航能力的构建,为IT引领业务诉求、科技提升效率与质量、业务连续性与系统可用性保障,提供知识范本、落地经验与借鉴案例。
系统技术方案
招商银行全业务流实时监测与运营平台——北斗系统(China Merchants Bank Beidou System)的建设和发展历经了三代产品。从第一代基于核心交易日志文件的单点监测,到第二代以旁路网络流量为基础的多点监测,再到第三代基于分布式交易链路追踪理论的端到端监测,逐步实现了从核心交易级别,到渠道+ 核心流量级别,再到目前的全业务流级别的升级发展。监测颗粒度从粗到细、精准度从低到高、主动性从弱到强,不断提升。
全链路追踪技术在招商银行的落地实践是该技术在金融业首次大规模运用。它的主流实现方案是基于 Google 的Dapper理论。现有的落地实践案例有阿里的“鹰眼”、大众点评的“CAT”、开源项目 Skywalking、Zipkin等。银行业因为部署环境复杂多样(包含了传统大机、x86服务器、容器、云等),需要对分布式链路追踪技术方案做适应性改造,使其能满足银行的应用架构特点和使用需求。在数据采集方面,平台采用了网络旁路加链路日志的方案,有效地解决了日志无法落地情况下数据的采集问题。作为一项复杂的系统性工程建设,项目涉及了招商银行信息技术部与众多业务部门的协作配合。其中一项核心工作就是推动招行存量重要业务系统进行链路追踪改造,实现链路追踪接入通讯规范和日志规范。
平台的数据处理流主要包括采集、加工、存储、算法、功能接口和应用(见图1)。它主要包括以下几方面特性,一是实时性和准确性,基于大数据实时流处理技术进行的数据指标聚合计算,保证了所有时序数据能达到分钟级甚至秒级要求,并且是数据准确的。二是高并发和高吞吐量,平台支持每秒千万级日志量的实时处理,可以支撑招行每一笔交易路径的实时还原和系统架构图的自动绘制。三是智能化,基于动态基线算法库进行的多维度指标监控告警,基线数据依据历史数据动态生成,且所有监控算法库中的算法都支持多维参数调优与监控告警回溯验证,实现了算法的可配置、可回测和可视化。四是开放性,平台通过 OpenAPI的形式对数据进行了开放,所有外部系统均可简单快速地接入平台的开放数据。五是融合性,在单笔追踪的基础上,通过将业务流与应用调用链路进行结合,平台消除了业务术语与技术术语差异,实现了业务流程还原和用户全旅程图刻画。

图1 系统数据流设计图
创新亮点
1. 打破数据壁垒、联通部门竖井。使用唯一流水号串联全行业务,打破数据壁垒、联通部门竖井。平台不但实现了应用调用链路的自动串联,而且使得不同业务系统的数据有了联通基础。研发与运维人员在问题排查效率、事件响应速度、故障提前预防等方面的能力得到了极大地提高。
2. 用户行为具象化、业务运营数字化。平台具有为2 亿APP用户形成实时画像的能力,通过还原用户行为路径,抽象客户特征,用户偏好得以数字化和具象化。对于数据增值的部分,平台将用户实时行为数据与运营相结合,通过触达率分析、转化率分析、漏损分析、用户画像特征分析、高潜客户发现等数字化运营手段,为零售产品营销赋能开辟了全新途径。
3. 海量数据实时处理能力。平台具有每秒千万数据实时分析处理的能力,日均日志处理量超过10TB。上千万业务纵横架构图实时画像,流量实时监测,是系统最基础核心的能力。
项目投产带来的经济效益和社会效益
1. 经济效益。项目在系统可用性、科技效率、风控、用户体验、业务增长、营销等方面创造了极大的经济效益。
系统可用性效益方面:自项目投产实施起,核心账务 系统整体可用性达99.999755%;手机银行可用性达 到99.999871%,同业内排名第一。科技效率效益方面:监控排障时间提升至少5倍;有效告警发现率提升 13.56倍;架构风险与隐患发现从周缩短到分钟级;支付系统架构优化效率提升3倍。风控效益方面:为托管银行日均处理交易金额超1500亿元的资产托管业务系统全年零故障保驾护航;为聚合支付支撑总交易金额超110亿,总交易笔数超5500万笔业务。用户体验效益方面:线上客户报障定位从小时级提升到分钟级;为招行APP的2亿零售用户提供了良好用户体验,提升日活、月活量。业务增长效益方面:上海分行闪电贷营销活动*款贷**新建额提升2~50倍;上海分行某理财产品购买率提升1284%;信代工厂减少至少上千人天的开销。营销收益方面:提供全旅程用户数据营销回流分析能力,为招行一年超过万次的零售营销提供优化决策建议。
2. 社会效益。项目在金融科技发展规划、金融风险监测和核心技术自主可控等方面产生了积极的社会效益。
金融科技发展规划方面:全业务流实时监测与运营平台在金融业的成功落地,为金融科技发展提供了行业知识范本、落地经验与案例的借鉴,具有远大的行业创新意义。金融风险监测方面:通过全业务流实时监测与运营平台对关键业务流进行动态监测,精确到每笔的实时业务监测与还原能力,能有效地发现高风险事件,进而降低系统业务风险,避免经济损失。核心技术自主可控方面:一是为银行主机下移提供了基础的运维保障,破除了监控部分存在的技术隐患;二是为银行应用微服务监控系统的演进提供了成功的案例与范本;三是为银行分布式架构应用提供核心监控能力;四是为适应银行基础设施云化的未来发展战略提供云端监控保障手段。
小 结
在互联网时代,业务场景的变化,消费者需求的变化,技术应用的变化都带来了一系列的挑战和机遇,全业务流实时监测与运营平台正是配合Fintech战略,实现科技工作由“被动响应”到“主动运营”转变中的重要一步。
通过招行IT团队大胆探索,谨慎实践。全业务流实时监测与运营平台解决了银行复杂应用部署架构下业务链路追踪的难题,为主机下移,业务全面上云又快又稳的目标打下了坚实的基础。不仅于此,IT团队突破性地将海量科技数据与业务数据结合,为总、分行的广大业务经理、产品经理、数据分析师提供了实时、丰富、有效的运营数据;为用户体验、业务流程、系统效能,产品团队建立了全面的产品运营指标体系;依托用户全旅程追踪,业务团队识别高潜、打捞漏损、回流分析营销效果,根据用户反馈数据快速精准迭代升级。这种全新、增量的实时追踪数据,加快了行内的数据开放共享,同时开放的运用方式又提升了数据的价值。将科技数据作为重要业务生产要素,为银行业的数字化运营走出了一条全新道路。
作为战略性基础性项目,招商银行全业务流实时监测与运营平台的建设并不仅仅只是一个平台这么简单,它是招商银行最高管理层对于金融科技引领变革管理思想框架的体现,通过管理流程与技术的运用、组织架构和人员的调整与配置来加以贯彻落实。它的建设融入了互联网最新分布式技术全链路追踪应用,从业务流的视角进行监控,是极具先进性与实用性的变革。