数据中台出现的背景
在企业数据建设过程中,都离不开大数据平台建设,大数据平台建设涉及数据采集、数据存储、数据仓库构建、数据处理分析、数据挖掘、数据可视化等等一系列流程。
随着企业体量的增大,一个企业可能有总公司及很多个子公司,随着企业各类业务多元化和垂直业务发展,从全企业角度来看,每个子公司或者某些独立的业务部都在构建大数据分析平台,在企业内部形成了很多分散、烟囱式、独立的小数仓,形成了一个个垂直的数据中心,从而导致了大量系统、功能和应用的重复建设,更造成了计算资源、存储资源和人力资源的浪费。
当企业体量变大,业务线变多,各个业务线独立的小数仓构建的数据应用体系存在以下问题:
1、效率低下
假设现在每天甚至半天都要做一次运营活动,活动结束后立刻需要对活动数据进行复盘分析,这时要求数据研发在一天或者半天内做出数据需求交付,数据研发有可能跟不上这种节奏,就会导致分析的数据无法支撑业务问题,数据研发效率低下。
随着数据量和业务越来越多,由于没有对数据进行很好的管理,各个数据仓库中的数据表越来越多,对于数据开发人员、数据分析人员、运营人员根本不清楚我们拥有哪些数据,这样就很难对数据进行管理复用。针对数据开发人员就会出现一种情况:当我使用一张表数据时去数仓中找到针对这张表分析的结果所花费的时间与重新开发分析这张表的数据的时间相差无几,所以在面对几万张表的时候如何快速找到并准确理解这些数据也是很大的挑战。
在数据建设过程中有一些指标可能在构建数据应用体系下没有及时的统计在数据集市中,就造成了运营、数据分析这些非技术人员需要给技术人员提临时性的数据分析需求,这个过程中来来回回沟通加上调试,可能需要一周时间才能准确完成运营需要的指标,数据开发人员约有 50%的时间浪费在了临时性的需求上面,按道理来说数据开发人员应该将更多的精力放在数据模型的构建、公共数据逻辑的建设上而不应该将大部分时间浪费在临时性的需求上。
2、数据质量问题
由于构建了很多数据仓库,没有有效的对数据进行很好的质量管理以及数据开发过程中存在 bug 问题,导致数据经常算错,结果违反常识,开发人员浪费大量精力定位数据质量问题,经常没有办法按时产出报表数据。计算出来的结果又不正确,导致数据使用方丧失信任,不再使用数据分析的结果。
更为严重的是往往数据质量问题 90%都是被数据使用方发现,也就是说在数据有质量问题时,我们数据开发人员根本不知道出现了数据质量问题,都是通过数据使用方投诉到 CTO 层面转给数据分析团队负责人。
从开发者角度来看工作已经由 996 变成 007 依然天天被人怼,工作非常被动,背负巨大压力。从数据使用者角度来看数据查询非常慢,需求响应非常慢,数据结果不正确,导致数据不想用,最终用不好。从公司高层来看就是花了这么多钱,还每天被抱怨数据不好用,数据天天出问题,数据不能支撑起业务。最终各方都对数据产生了很大的抱怨。
3、集群资源成本大
在企业数据建设中经常是“数据上线容易下线难”,在数据开发中一张数据表从上线之后,我们就一直不停的加工产出结果,很少关注这张表到底产生了多少价值,被多少部门多少人在使用,如果一张表后期没有人去使用,我们还在不停的计算加工、存储,那无疑给集群资源带来极大浪费,一些企业甚至在没有挖掘出数据价值时已经被这种高额的成本压垮,在企业数据分析中往往都存在大量的表或者临时表 30 天内都没有人访问,而占据了极大空间资源。
4、数据口径难统一
当一个公司体量非常大时,其业务形态比较复杂,往往统计同一个指标时不同的部门有各自的口径。假设我们公司是一个年销售额几千亿的企业,在计算一些指标时要考虑各种各样的因素。
往往针对指标统计财务部门有自己的一套口径、仓储部门有自己的一套口径、IT 部门有自己的一套口径、运营部门有自己的一套口径,这样往往在公司内部引起“拌嘴” 这种情况在给公司高层汇报数据时往往会有“这个结果是根据运营部门统计出来”、“这个结果是根据销售部门统计出来”、“这个结果根据仓储部门统计出来”,“这个结果根据财务部门统计出来”,每个部门统计的结果最终形成“烟囱式”统计,更要命的时当公司高层提出一个需求,假设针对销售商品销售额和库存量来做某个商品的销量预测,我们也不知道哪个部门统计的结果是正确无误的,不清楚应该以哪个部门的数据为基准进行预测分析。
当一个企业发展到一定规模后,当各个部门计算的某些需求指标有交集时,虽然每个部门都有各自的大数据平台、数仓平台,每个部门有成百上千张各种眼花缭乱的报表数据及指标数据,但是各个部门统计的指标数据根本不一致。
5、数据安全问题
各个独立、烟囱式的数据平台开发带来了数据监管难的问题,各个业务线数据会不会泄漏?
没有数据权限的人会不会看到敏感数据,例如针对用户交易数据,A 部门由于业务需要可以看到用户的电话号码,其他信息看不到。B 部门由于业务需要可以看到账户余额,其他信息看不到,C 部门由于业务需要可以看到用户收货地址,其他信息看不到等,但是从各个部门获取的数据来看,这份数据包含了用户所有隐私信息,站在企业角度来看这些数据安全问题管理起来分散不统一,存在巨大的风险。
什么是数据中台
数据中台是一套可持续“ 让企业的数据用起来 ”的机制,通过有形的产品和实施方*论法**,构建 一套持续不断把数据变成资产并服务于业务的机制 ,数据来自于业务,并反哺业务,不断循环迭代,实现数据数据可见、可用、可运营, 通过数据中台把数据变成一种服务能力,其目标是提供普惠的数据服务。

关于数据中台有以下几个功能特点:
1)数据中台具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现核心能力。
2)数据中台的核心就是实现公共计算逻辑下沉,实现数据复用,提供给接口使用。
3)数据中台不是某一个单一的产品或者某个技术。本质上讲数据中台就是从数据中发现价值,赋能业务数据管理机制。
如果我们把数据比喻成血液,那么数据中台就是心脏和毛细血管,构建中台可以能让数据价值渗透到各个业务场景中去。
4)数据中台最核心的理念就是“OneData OneService”
“OneData”指的是对于企业数据我们需要按照主题和分层方式进行管理、统一表及指标的命名规范,保证数据完整性及复用性,全企业数据只有这一份统一管理的数据。
“OneService”指的是业务使用的所有数据来源于数据中台,数据中台提供统一的数据服务功能,屏蔽底层数据存储,做到接口复用,减少不规范的烟囱式的接口开发。
构建数据中台时需要企业从战略、组织、人才方面全方位规划配合,而不仅仅停留在工具和产品层面,所以在一些大互联公司在宣布中台战略时,会伴随组织架构调整,例如:合并数据处理部门,合并业务部门等等。
数据中台的核心理念就在于数据取之于业务,用之于业务,它相对于数据平台注重的是对业务的积累和沉淀,构建了从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。
构建数据中台价值如下:
1、提升数据应用能力
数据中台将海量数据转化为高质量的数据资产,为企业提供更深层的客户洞察,从而为客户提供更个性化和智能化的产品和服务。
2、打破数据应用屏障
在传统数据建设中,数据无法被业务使用,其中一个重要的原因是业务人员不够懂数据,导致数据应用到业务变得困难,数据分析人员不管业务,只是按部就班产出报表结果,以上情况导致数据分析结果不能很好地反哺到业务中,构建数据中台之后,数据分析人员将数据变成业务人员可阅读、易理解的内容,业务人员看到内容后很快可以将数据结合到业务中。
3、打破数据孤岛,盘活全量数据
数据中台构建将分散割裂的海量数据做到集成,打破数据孤岛的现状,同时降低使用数据服务的门槛,实现数据“越用越多”的价值闭环。
4、支持跨主题域访问数据
企业早期建设的应用数据层 ADS(传统数据仓库分为 ODS/DW/ADS)更多是为了某个主题域所服务,例如:营销域、人力资源域、风控域。而企业在数据应用到业务的时候往往需要打破各个主题,会从业务对象主体出发来考虑数据应用,如人(会员、供应商、渠道、员工)和物(商品、仓库、合同),从全域角度设计完整的面向对象的数据标签体系。
5、数据快速复用
传统的架构中,将分析后的数据应用到业务中,通常做法就是通过数据同步能力,把结果同步到业务系统中,由业务系统自行处理,这会带来数据管理问题,整个数据血缘链路是割裂的。数据中台可以很好的提供数据服务,业务系统只需要从数据服务中获取数据即可。
数据中台技术架构

数据中台要求全企业共用一个数据技术平台、共建数据体系、共享数据服务能力。实际上一个企业中由于各个业务线发展不均衡,各自都有独立的数据处理架构,导致共享数据非常困难,所以要构建数据中台不仅是对技术架构的改变,同时还是对整个企业业务运转模式的改变,需要企业在组织架构和资源方面给予支持。数据中台是一个企业战略行动,绝非一个项目组或者一个小团队就能做的,需要了解整个企业的业务情况,对业务进行梳理,还需要技术支撑、组织的支撑,否则很难推行下去。
数据中台的建设内容包含技术体系、数据体系、服务体系、运营体系四大体系。
- 技术体系
技术体系是构建数据中台的基础支撑,对于技术体系而言包括两部分:大数据存储计算技术和数据中台工具技术组件。
大数据存储计算技术包含:Hadoop、Spark、Flink、Clickhouse 等技术,企业一般不会自己建设,只需要进行合理的选型即可。
数据中台工具技术包含:数据汇集、数据资产管理、平台服务管理工具等相关技术。
- 数据体系
数据体系是指全企业的数据通过各种方式汇聚到数据中台,在数据中台中按照一定的建模方式进行加工处理,形成企业的数据资产体系。不同企业业务不同对应的数据不同,当然构建的数据体系内容也不同,但是建设的方法都是类似的。
- 服务体系
数据中台与大数据平台最主要的区别是数据中台中数据能方便的以服务化的方式支撑业务。服务体系是通过中台的服务组件能力,把数据变为一种服务能力。例如:客户微观画像系统、信用评估服务、风险预警服务等,让数据能够方便的参与到业务中去并为业务带去价值。
- 运营体系
运营体系是数据中台的守护者,通过运营体系保证整个中台的健康、持续运转。运营体系包含平台资源占用监控、数据质量监控、数据价值评估等,其目标是让中台持续健康运转,产生持续价值。
结合以上构架数据中台四大体系,构建数据中台可分为如下 5 个步骤,如图所示:

1)理现状
梳理企业已拥有的数据、业务特点,使用的技术,部门等企业组织形态等现状。
2)立架构
架构中包含“组织架构”、“业务架构”、“技术架构”、“应用架构”、“数据架构”。
- 组织架构:组织架构主要是保证中台项目的顺利落地需要企业考虑的整体组织保障,其中角色主要包含:业务人员、IT 人员、供应商、相关负责人。
- 业务架构:保证数据中台能够适用于企业业务的业务管理流程。
- 技术架构:主要针对数据中台中数据存储、计算相关技术选型。
- 应用架构:应用架构就是根据业务设计哪些数据服务。
3)建资产
数据资产建设包含数据汇集、数据仓库建设、数据治理、标签体系建设,其中最重要的就是标签体系建设,所谓标签体系建设就是面向具体对象构建的全维度数据标签,通过标签体系可以方便地支撑应用。
4)用数据
将通过数据中台构建的数据资产通过服务化的方式应用到具体的业务中,发挥数据价值。
5)做运营
运营主要包含数据监控审计、数据价值评估等内容,通过数据运营,让更多的人和业务感知到数据的价值。数据中台构建稳定之后,一般会循环 3~5 步骤,不断挖掘数据和业务场景的结合点。
由以上建设数据中台内容体系来看,建设数据中台除了有对应的方*论法**之外,还需要有对应的支撑技术、组织架构。 “方*论法**”、“支撑技术”、“组织架构”实际上是建设数据中台的“三板斧”,缺少任何一个条件都不能建设好中台。
数据中台功能架构
数据中台总体架构图如下:

下面简述以上数据中台的各个部分,可以参照后续小节分析内容。
- 数据汇集
数据汇集是数据中台数据接入的入口,所有数据来自于业务系统、日志、文件、网络等,这些数据存储在不同的网络环境和存储平台,通过数据汇集工具可以将这些数据汇集到数据中台中。
- 数据开发
数据汇集到中台之后,数据都是按照原始状态堆砌在一起,业务无法使用,数据开发可以通过一整套数据加工及管理工具,将数据进行清洗处理。
- 数据体系
此部分主要是大数据平台中数据仓库构建内容。
- 数据资产管理
通过数据体系建立起来的数据资产较为偏技术,业务人员比较难理解,数据资产管理是以企业全员更好理解的方式把企业数据展现给全企业人员。数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示。
- 数据服务体系
数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务,数据服务体系是数据中台存在的价值所在。数据中台服务提供快速的服务生成能力以及服务的管控、鉴权、计量等功能。
- 运营体系和安全管理
运营体系和安全管理是数据中台健康持续运转的基础。建设内容主要涉及企业资产管理和数据安全,使数据越用越多,越用越活。
数据安全管理
在数据中台中所说的数据安全管理,侧重于企业内部的数据安全管理,是狭义的数据安全管理,重点放在大数据平台的安全管理技术手段上。在大数据时代,数据的整个生命周期包含:数据产生、数据存储、数据传输、数据使用、数据共享、数据销毁这些环节,每个环节基于不同类型的数据,面向不同的人员都有不同的数据安全风险。在数据中台中数据安全可以借助一些技术手段实现。
1、统一的安全认证和权限管理
在大数据中有很多安全管理技术,例如:Kerberos、Ranger、Hive、ClickHouse 也都有自带的数据权限管理,在数据汇集、数据开发、数据体系中我们可以借助这些技术实现数据安全管理。
2、数据资源隔离
对于业务方数据使用,我们也可以自己实现数据授权平台决定哪些部门、哪些人有权访问敏感数据,对不同权限的数据资源进行隔离。
3、数据加密
针对数据在网络之间传输时,可以考虑数据加密,数据加密是用某种特殊的算法改变原有的信息数据使其不可读或无意义,使未授权用户获得加密后的信息,因不知解密的方法仍无法了解信息内容。
4、数据脱敏
在数据传输、共享、展示时为了防止用户隐私数据、商业机密等信息泄漏,可以对数据使用大数据主键或者自建平台对数据进行脱敏处理。