下面是小编为大家整理的从数据仓库到数据中台演进,供大家参考。
从数据仓库到数据中台的演进
1 、第一阶段
21 世纪的第一个 10 年,企业级数据仓库(EDW)从萌芽到蓬勃发展,“IOT”( IBM、Oracle、Teradata)占领了大部分市场,提供数据仓库建设从硬件、软件到实施的整体方案。
这个时代的数据仓库实施不仅需要购买大(中、小)型机,配套商用的关系型数据库(Oracle、DB2、SQL Server)以及一些 ETL/OLAP 套件,实施成本相对高昂,数据仓库建设主要集中在金融、电信、大型零售与制造等行业。
数据仓库的应用主要通过为企业提供报表、分析等数据,辅助企业的经营决策。像电信行业的经营分析系统、银行的风控管理等,都是这个期间比较典型的应用。
2 2 、第二阶段
2010-2015 年,大数据平台阶段,移动互联网的飞速发展带动 Bigdata(大数据)的发展。其中 Hadoop 生态技术开始逐步在国内大范围使用,企业只要基于 Hadoop 分布式的计算框架,使用相对廉价的 PC 服务器就能搭建起大数据集群。
数据湖的概念也是这个阶段诞生(主要是为降低传统数仓较为复杂的中间建模过程,通过接入业务系统的原始数据,包括结构化、非结构数据,借助 hadoop生态强大计算引擎,将数据直接服务于应用)。这个阶段不只是金融、电信这些行业,国内主流互联网企业也纷纷搭建起大数据平台。
大数据应用更为丰富,不仅限于决策分析,基于 APP/门户站点的搜索推荐、以及通过 A/B Test 来对产品进行升级迭代等是这个阶段常规的应用点,用户画像在这个阶段也得到重视,主要应用于企业的营销、运营等场景。
3 、第三阶段
就是我们现在所处的阶段,数据中台以及云上大数据阶段,通过前 10 多年不断的技术积累,大数据在方法和组织的变革上也有了新的沉淀,主要体现在几个方面:
1 )数据统一化
其核心思想是数据流转的所有环节进行统一化,如从采集到存储到加工等过程,在这些过程中通过建立统一的公共数据模型体系、统一的指标与标签体系,提高数据的标准性、易用性,让数据本身更好地连通,提升使用效率。
2 )工具组件化
数据在采集、计算、存储、应用过程中涉及多业务线条,多场景,将这些场景与工具(采集工具、管道工具、计算&调度工具、数据服务工具,数据管理工具、可视化工具等)进行沉淀,研发出通用、高效的组件化工具,避免重复开发,降低研发成本。
3 )应用服务化
之前大数据应用的数据调用比较混杂,有些直接访问数仓数据表,有些调用临时接口等。通过数据中台应用服务化建设,提供标准的应用服务,以数据可视化产品、数据 API 工具等服务,支撑应用的灵活调用。
4 )组织清晰化
数据中台团队专注于数据内容&数据平台开发,提供各种基于数据的能力模块,而其他部门人员如业务产品、运营、分析等角色,只需要借助工具/产品有效地使用数据,发挥其价值,无需关注数据加工的过程,做到各尽其职,充分发挥各自专长,同样也能达到降本提效目的。大数据团队内部本身组织和职责也倾于清晰化,比如按照职责分为平台(工具)研发、数据研发、数据产品、数据分析等不同组织。
3 、当前阶段
数据应用到各个角落,除了之前可以支撑的决策分析以外,大数据与线上事务系统(OLTP)的联动场景非常多,比如我们在电商平台查询个人所有历史订单,再比如一些刷单、反作弊的实时拦截,以及一些实时推荐等,这些都是通过将数据的运算交给数据中台部门处理,前台部门直接通过 API 进行结果调用。
数据中台的集中化建设也更好地支撑起创新业务,比如通过大数据+分析建立起商业化数据变现产品,进行数据售卖,把数据变成新的业务。
大家知道共享复用是中台建设中很关键的一个词,这也是为什么我们很多数据中台下面会包括共享数据组,公共数据组等。实际上共享复用并不是大数据发展的一个新词,在早期数据仓库(建立公共数据模型)、大数据平台(研发一些组件化工具)的建设中,也是满足共享复用的。
如上提到,数据中台本身是组织,方法的升级与变革,更多是利用技术的进步更好地支持这些升级变革,如果你当前的建设还是数据平台+数仓(数据湖等)但是已经具备这些方法和特性,我个人认为也是合理的。
数据中台的建设也需要相应的成本与门槛,例如集群搭建、工具建设等。云计算的发展可以快速提供数据中台建设的能力,例如企业无需自己搭建机房,使用云计算的弹性计算存储能力以及丰富的工具,可以支撑数据中台的快速搭建。
关于数据中台的合理性也一直颇有争议,大型(集团型)公司有相互独立的子公司,数据之间不需要太多连接与共享,分别构建自己子数据中台也是合理的架构,集团层面可以利用数据子中台进行数据上报解决集团层面数据大盘、统计、分析、财务等诉求。再比如一些小型公司是否需要在一开始就按照数据中台的架构进行建设,也是存有一些争议。
数据中台是 2015 年阿里提出来的双中台的概念其中的一个重要组成,阿里作为先驱者,提供了数据中台架构、以及非常多的建设思路供大家参考。
从目前的建设效果来看,很多公司在数据中台建设中有不错的成效(尤其是大中型公司),数据中台整体思路得到了验证。但是数据中台本身还算一个新鲜事务,这个新鲜事务目前还没有标准答案,只有参考答案。
02 数据中台架构与技术选型
1 、数据中台架构核心组成
笔者认为的数据中台核心架构包括四大组成部分,具体是:
底座是数据基础平台,包括数据采集平台&计算平台&存储平台,这些可以自建也可以使用云计算服务。
中间部分两大块是中台的公共数据区,公共数据区包括数据仓库(数据湖) ,主要负责公共数据模型研发,还包括统一指标(标签)平台,负责把模型组织成可以对外服务的数据,例如数据指标、数据标签。
上层是数据应用服务层,主要将公共数据区的数据对外包装并提供服务,包括数据接口平台、多维查询平台,数据可视化平台、数据分析平台等。
另外,数据研发平台和数据管理平台贯穿始终,其中:
1 )数据开发平台包括数据开发的各类工具组合,例如:数据管道工具(比如数据接入、数据导出)、模型设计工具、脚本开发工具、数据调度工具等。
2 )数据管理平台包括统一元数据管理、数据质量管理、数据生命周期管理。针对数据全链路的数据管理,保证数据中台可以监控数据链路中的数据流向、数据使用效果、数据生命周期,以衡量数据的价值与成本。
以上是数据中台的核心部分,数据中台的组成也可以更加丰富,比如包括:数据资产平台、算法平台等等。
在数据中台的建设中一定不要忽视的是与业务的衔接,因为数据来源于业务并最终应用于业务,在数据中台的建设中需要有一系列的流程制度明确与业务的充分衔接,以保障数据源&数据产出的质量。
2 、数据中台技术选型参考
在搭建数据中台方面,基于开源技术的选型,尤其是 Hadoop 生态圈有非常多的选择,从数据整体流向来看各大层级的选型。
数据抽取层:sqoop 和 flume 是两大主流工具,其中 sqoop 作为结构化数据(关系型数据库)离线抽取,flume 作为非结构化日志接入。
数据存储层:Hadoop 文件系统 Hdfs 大家都比较了解,而 kafka 作为流式数据总线应用也非常广泛。
计算与调度层,包括:离线计算:离线计算主要是 hive,spark,也有部分选用 tez。实时计算:前些年 storm,spark 比较流行,最近几年大家纷纷往 Flink 转型。数据调度:除了像 Airflow Azkaban Oozie 等,易观开源的 Dolphin-scheduler 也非常活跃 。
数据引擎层:也就是我们常说的 OLAP 层,我们看到这一层里的选择非常多,就不一一列举了,(业务需求带动技术进步的典型,选择丰富主要是可以适配不同的数据应用场景)。从概念上讲分为 ROLAP、MOLAP 以及两者混搭。MOLAP 提前做一些预计算,以生成 Cube 的方式,达到空间换取查询效率;而 ROLAP 是即查即用,效率完全取决于查询引擎的性能,我个人认为从将来看,ROLAP 的趋势会更加明显,因为没有中间的数据链路。但目前看来,没有一个统一的引擎足以支撑各类数据场景(这或许是将来的机会~)。
数据可视化层:比较主流的有 Metabase、Superset、Redash,也可以选择阿里、百度的一些开源控件。
在开源技术的选择里,我们看到各层里都有越来越多国内开源的工具(也充分体现了我们在大数据技术领域的进步)。除了以上列举的这些,整个 Hadoop生态圈的技术选择非常多,可以结合自己的实际场景选择自己的架构,在选型层面可以参照的一些原则,比如:
是否有鲜活的成功案例,优先找自己类似业务场景。
接口的开放性,与其他组件的兼容性。
社区活跃性度&发展趋势。
当然,数据中台的选型不只是开源技术,开源本身也不是完美的,例如维护开发成本较高,升级迭代不好把控,通过开源技术去建立数据中台还是有一定研发门槛。
所以也有很多商业化的套件、以及基于云的数据组件可以选择,包括数据采集、处理、分析、数据可视化全过程,国内外有很多厂商都提供了丰富的选择。尤其在大数据可视化这块,国内有许多非常专业的商业套件。
02 数据中台厂商分析
Gartner 发布的《2021 年中国信息通信技术成熟度曲线(Hype Cycle for ICT in China, 2021)》,在整个 ICT 技术炒作周期图中,数据中台目前处于炒作巅峰,且在未来 2-5 年内将被市场广泛采用,可见数据中台在资本市场上的火爆程度。
2021 年中国信息通信技术成熟度曲线(来源:Gartner)中台市场增长势头明显,市场规模快速扩张。2018 年我国中台(此处仅包括数据中台和业务中台)市场规模仅 26.7 亿元,2020 年增长到 90.1 亿元,预计到 2025年将达到 944.8 亿元,2020-2025 年复合增长率高达 60%。
2018-2025 年中国中台市场总规模(亿元)(数据来源:海比研究院)数据中台占据中台市场 6 成以上份额,处于市场主导地位。2020 年,数据中台市场规模 55.5 亿元,在整个中台市场中占比 62%,业务中台占比仅 38%。2020 年中台市场规模(单位:亿元)数据中台行业参与者众多,包括以阿里云、腾讯云、华为云等为代表的大型云厂商,以浪潮、网易数帆、东软、元年科技为代表的数字化解决方案厂商,和以奇点云、数澜科技、云徙科
技、袋鼠云为代表的中台厂商。数据中台市场集中度较低,缺乏垄断型企业。TOP10 中台厂商市场份额仅为 40.9%,其中大型云厂商阿里云、腾讯云、华为云、百度智能云、京东云占据前五席,但合计份额仅为 29.9%。这意味着行业不存在垄断企业,进入门槛相对不高。2020 年数据中台市场份额 TOP10 厂商(来源:海比研究院)目前市面上数据中台行业相关的热门厂商,比如阿里云、百度智能云、腾讯云、京东云、浪潮、网易数帆、东软、元年、明略、神策、用友、数澜、袋鼠云、云徙科技、奇点云等,对市场上数据中台相关解决方案的行业适用性进行梳理,发现:大部分厂商均打造了通用型数据中台解决方案。如百度智能云的通用数据中台解决方案除上文已提到的阿里云和百度智能云外,如浪潮的数据中台解决方案已在气象局、智慧城市、银行、工业制造领域成功落地;阿里云的通用数据中台解决方案前已服务于水务、烟草等行业客户;东软的一站式数据中台解决方案已覆盖人社、电子政务、教育、医疗、金融、电信、航空等领域客户。根据这些厂商数据中台相关解决方案的行业布局来看,金融最受青睐,之后依次是政务、制造和零售。数据中台厂商重点布局这四大行业,或与行业特点有关。金融行业业务对数据依赖度高、政府部门业务多元且复杂、制造行业信息化程度较高、零售行业多端多渠道,均对数据整合运营有强需求,进而衍生出数据中台的建设需求。
适用行业的解决方案数量根据厂商对数据中台解决方案的介绍,上述厂商均提供数据中台建设+行业应用开发服务一站式服务。出现此现象的原因是数据中台对企业数字化转型的最终价值体现方式为支撑上层行业应用以实现业务创新,厂商提供数据中台+行业应用开发一站式服务,更能发挥数据中台的价值,满足市场需求。从行业应用开发服务类型来看,厂商更倾向于提供运营类、营销类应用。在 32 个包含上层行业应用开发服务的解决方案中,有 27 个解决方案涉及数字运营类应用,占比高达 84.4%;18 个方案涉及数字营销类应用,占比 56.3%;仅有 6 个解决方案涉及数字业务应用,占比仅 18.8%。数字业务类应用由于更贴近业务,对厂商在业务洞察方面有更高的要求,形成了较高的进入壁垒,而数字运营类和数字营销类应用通用性较强,是应用开发的最佳切入点。
数据中台解决方案涉及的行业应用类型占比注:同一个数据中台解决方案可能同时提供数字营销、数字运营、数字业务应用中的多种应用开发服务,存在重复计数,所以各类型占比之和大于 100%。根据艾瑞咨询《中国数据中台行业白皮书》,数据中台供应商主要由五类厂构成:头部互联网企业、字化解决方案提大公司独立开发及人工智能厂商。市场不断有新玩家进入,各类型的都具同竞争优势处在占领份额、凭借域构建壁垒的扩张阶段,与此同时也带来了一些产品区分度低、边界不明业务混杂等行乱象。
随着数据技术架构和方法论趋于完善,现阶段数据中台建设的难点更多聚焦在如何将成熟技术方案与行业及企业的实际情况和特征结合,即企业更需要厂商切身的咨询规划服务,以发挥数据中台的效能。
推荐访问:从数据仓库到数据中台演进 演进 数据仓库 数据