中台全视角!论文解读:《数据中台技术相关进展及发展趋势》
编者按
自2018年起,业界被“各种中台”狂轰乱炸,技术中台、业务中台、AI中台等等雨后春笋般纷纷涌现。那么国外也有数据中台吗?数据中台为什么会引人争相追逐?数据中台在政府事务的落地情况如何?本文以数据中台为核心,综述了数据中台相关领域的国内外研究,并提出数据中台通用技术架构,对数据中台的行业落地进行了全方位解读,最终呈现出一幅“数据中台”的全景图。
本文已收录于由中国科学院主管、中国科学院计算机网络信息中心主办的学术性专业期刊《数据与计算发展前沿》(CN10-1649/TP,中英文双月刊)。
摘要
[结果]基于本文提出的数据中台的相关技术框架,数据中台在相关行业已经得到初步应用和实践,其中互联网、金融和政府等行业走在前沿。
近年来随着互联网、移动互联网、IoT、5G等技术的普及与发展,企业和政府获取的数据以指数级增长,同时数据类型也从最初的结构化数据逐渐扩展到视图声等非结构化数据。对企业来说,需要更好地应对生产、营销和运营等业务挑战,快速响应用户需求;对政府来说,需要更好地服务人民及进行国家治理,二者对数据资产的综合应用越来越重视。为了解决海量异构数据的采集、加工、分析,以沉淀数据资产快速响应上层应用的难题,数据中台的概念应运而生,其在满足常规报表生成、报告数据分析需求的同时,也为催生业务创新提供了坚实的基础。
数据中台是阿里巴巴公司在2015年根据自身业务需要提出来的概念,随着2018年各大互联网公司纷纷提出中台战略并随之进行组织架构的调整,将“中台”的概念推向了高潮,各类公司纷纷效仿跟进,一时各种“中台”喷薄而出,技术中台、业务中台、AI中台、算法中台、研发中台、组织中台、服务中台、数据中台……各种“中台”让人眼花缭乱,应接不暇。不论何种中台,核心是抽象、组件化共性的能力,以降低成本、避免重复建设浪费资源。
本文主要以数据中台展开描述。数据中台并不是一个具体的产品或技术架构,而是一种综合解决方案或是一种运营理念,在业界还没有清晰明确的定义。我们认为数据中台的核心在于构建标准的数据体系和快速支撑前端应用的能力,通过数据来驱动业务的创新和变革。而要构建标准数据体系并达到相应能力,必须结合产品、技术、数据、业务及组织力量来保障企业的综合运转和长期运营,这样数据中台才能发挥出巨大的价值。
1 研究背景
目前国内对于数据中台的研究趋于成熟,数据中台在互联网、金融[1]、电力[2]、媒体[3]等多个行业被广泛应用,其中以阿里巴巴的数据中台最具代表性并被大家所熟知。为了更快地响应前台业务,以此应对多变的市场需求及外部竞争压力,2015年阿里巴巴正式宣布:“构建符合DT时代的更创新、更灵活的‘大中台小前台’组织机制和业务机制。”[4]构建 OneData体系实现既“准”且“快”的“全”“统” “通”的智能大数据体系。通过OneModel、OneID、OneService完成数据中台落地,OneModel实现数据构建及管理;OneID完成核心商业实体识别;OneService通过主题式数据开放服务支撑最终的统一数据开放服务[4]。同时,利用计算后台的离线计算能力、实时计算能力和在线分析能力支撑中台运算。电力行业作为应用数据中台较早的行业,提出采用分布式微服务技术架构的方案,通过应用分布式服务治理、分布式数据库、消息队列等成熟互联网技术,保障共享服务中心快速建设与稳定运行,最终为中台赋能[2]。金融行业提出了核心包括数据平台、数据资产、数据治理、数据服务的数据中台建设方案[1]。
在数据标准研究方面,国内研究范围覆盖监管政策、存储规范和传播交流机制[5,6],以及数据质量标准、元数据标准等[7,8]。在数据平台和数据资产部分的底层数据处理与分析也有较多研究,如实时数据处理决策[9]、图像内容检索[10]、可解释NLP[11],以及降维、分类、数据挖掘应用等内容[12]。在数据服务方面,国内开源的微服务框架Duboo提供了一系列可进行微服务治理的开源组件[13]。另外,针对微服务框架组件维护成本高等问题而推出的服务网格(Service Mesh),对其运行操作进行了标准化,开发者或运维人员可以编写策略来执行运行操作,而无需开发任何代码,同时国内对其使用声明性方法也进行了相关研究[14]。另外针对物联网数据分析而提出的面向微服务的互联网大数据分析平台的概念验证也已经完成[15]。
相比国内的研究,国际上虽然尚未推出数据中台的概念,但针对具体的数据治理、数据处理和数据服务等方面的研究已经比较成熟。其中数据治理相关研究已经比较成熟,DGI从规则、组织和过程三个方面提出了10个通用过程,进而推出了DGI《数据治理框架》[16]。并且,IBM、Gartner分别提出了数据成熟度模型[17,18],用于指导数据治理工作的顺利开展。根据DAMA的定义,数据治理是指对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。数据治理涵盖的范围一般以Khatri和Brown提出的数据治理决策模型为准,包含了数据准则、数据质量、元数据、数据访问、数据生命周期管理5个决策域[19]。
在数据质量方面,研究主要包含数据质量检测、错误数据修正和劣质数据查询处理等[20]。近年来的研究包括对包含数据质量定义、评估和改进的多种数据质量框架的研究[21]以及通过计量方法验证数据可靠性的研究等[22]。Apache Griffin[23]为大数据数据质量管理提供了解决方案。元数据管理包括元数据存储库、业务术语表、血缘关系、影响性分析、规则管理、元数据获取与转换几大功能[24]。通过ML和语义搜索功能自动化构建元数据知识库,以及NLP来改进交互操作[24]的研究也在进行中。Apache Atlas[25]为Hadoop生态系统元数据治理提供了解决方案。数据生命周期管理包括数据采集、数据处理和数据存储,分别负责数据采集、数据加工处理和数据存储、归档备份和销毁[26]。Apache Falcon[27]为数据生命周期管理提供了解决方案。
数据处理的相关研究包括数据的存储、访问、处理等内容,具备传统数据仓库、实时数据仓库、上下文无关数据仓库、逻辑数据仓库四部分能力[28]。数据存储方式主要有传统关系型数据库、全文检索、分布式大数据存储。传统关系型数据库包括关系型数据库和并行数据库集群。全文检索如ElasticSearch等,分布式存储包括Key-Value存储系统、列存储系统,以及文档存储系统如HBase、Hive、MongoDB等。同时数据处理中的粒度计算研究也在逐步深入,如Beliakov,et al.的图像缩小算法等[12]。
数据开放服务的研究主要集中于基于微服务架构(Microservice Architecture),比如Spring Cloud的领域。微服务架构通过组合预定义服务组成应用,满足系统业务需求的分布式体系结构[29]。各微服务独立部署,通过暴露REST API对外提供服务,服务间可以自由组合和调用,由API网关提供权限验证、负载均衡、压力检测与智能路由等功能[30]。Istio作为服务网格架构的一种实现,为整个服务网格提供行为洞察和操作控制的完整的解决方案,满足应用程序的多样化需求[31],另外提供自动语意功能也是目前数据服务平台研究的方向之一[32]。
基于以上国内外的相关研究成果,综合业界各行业广泛应用的实践可以看出,数据在企业数字化转型的历程中成为了最核心、最重要的生产资料已经成为共识,甚至有人预言,数据将会写进企业的资产负债表中。在企业重塑业务,通过数据驱动业务转型和业务创新这个数字化转型的背景下,企业需要一个源源不断的输出数据服务,数据预见洞察的能力源泉,数据中台的出现就成了顺理成章的事情。但不同行业、不同企业的业务千差万别,具有很大的差异性,很难提炼出数据驱动业务的共性之处,我们由此提出数据中台构建过程中相对通用的技术架构,并在下文进行详细阐述,希望能够为企业在数字化转型过程中提供参考和借鉴。
2 技术架构
2.1 数据中台总体架构
数据中台可定义为一个集数据采集、融合、治理、组织管理、智能分析为一体,将数据以服务方式提供给前台应用,以提升业务运行效率、持续促进业务创新为目标的整体平台。从业内较为通用的架构来看,数据中台一般可分为四层:大数据技术平台、数据资产管理平台、数据分析挖掘平台、面向应用的主题式数据开放服务平台,总体架构图如图1所示。本章节针对数据中台每个层次单独进行阐述。

图 1数据中台总体架构图
Fig.1 Overall architecture of Data Mid-End
我们认为数据中台其整体架构可以分为四层:
(1)大数据技术平台,为数据资产管理平台提供技术支撑,基于hadoop生态体系构建,包含多个数据存储、计算框架,解决多源异构的海量数据采集、存储、计算等问题。
(2)数据资产管理平台,基于大数据技术平台之上的数据管理中间件,用于盘点数据家底、构建统一的数据标准体系、构建行业化主题式数据仓库,以实现数据资产化为主要目的。数据资产管理平台通过数据开发引擎与底层大数据技术平台进行数据交互。
(3)数据分析挖掘平台,架构在数据资产管理平台之上,为数据科学家、数据分析师提供稳定、高质量的跨主题数据资源。同时支持自然语言处理、机器学习建模平台、智能标签+动态知识图谱等多个易用的数据挖掘工具集。
(4)统一数据服务总线,提供统一的、面向应用的、主题式的数据服务,将数据资产管理平台、数据分析挖掘平台的数据处理和分析结果以数据服务形式对外提供,同时生成以业务为导向的服务资源目录,让前台应用更清晰的使用数据中台里的各类数据,实现以数据驱动业务,促进前台业务。
2.2 大数据技术平台
大数据技术平台为数据中台提供技术支撑,包括数据采集、数据存储、数据处理、数据分析等计算组件。一般基于开源Hadoop生态体系构建,数据中台使用的大数据技术架构不应该限定为单一架构,而是复杂多样的,要求上层资产管理平台具有较高的兼容性,能适配国际、国内多种主流大数据技术平台。
2.2.1多源异构数据采集与存储技术
数据中台面向的业务较为复杂,涉及的数据种类繁多、容量巨大,常规技术无法满足如此复杂的海量数据进行采集、处理与分析,所以需要研究不同行业多源异构数据的特征,定义数据采集标准、技术方式,并将之产品化,用简单配置的方式实现多源异构数据自动接入到数据中台。同时,需要构建一套通用的、基于本体论的数据语义描述模型,包括:模型中的基本元素、基本类型、基本关系、基本函数和用于推理的逻辑内核,用于存储和表达异构数据,让数据更容易被使用。
2.2.2 基于统一模型和pipeline的数据融合引擎
2.2.3 与底层解耦的异构任务执行引擎
对数据中台来说,异构任务执行引擎可以起到承上启下的作用,它连接底层大数据技术平台与数据资产管理平台,负责数据计算任务提交、分发与管理,同时也是维护大数据技术平台稳定运行的关键服务。任务执行根据大数据平台集群状况决定计算任务是提交或是在队列中等待,在集群任务负载较高的情况下,保障高优先级的任务优先被执行。同时,任务执行引擎支持多种异构任务,如MapReduce、Spark、R、Python等,以适应不同技术团队的数据开发需求。
2.2.4 基于多租户的异构工作流调度引擎
2.3 基于大数据技术的数据资产管理平台
2.3.1 统一标准的数据治理体系
数据治理是数据中台建设过程中基础且重要的环节,数据治理三个核心要素包括数据标准管理、数据质量稽核、元数据管理。
(1)数据标准管理一般基于国标数据元与编码标准建设,包括数据接入标准、命名标准、数据格式标准、数据安全标准、资源管理标签等多个方面。
(2)数据质量稽核,通过数据质量管理工具从数据的完整性、一致性、唯一性等多个层面轻松实现对数据的全面稽核和预警。做到事前质量检查、事中运行监控、事后归纳总结,结合系统提供的全方位评估并提高数据质量,为决策者的提供参考并辅助决策。
(3)元数据管理将数据资产用清晰直观的方式进行呈现,让数据资产真正被读懂、能利用,通过血缘分析和影响性分析,可以直观地了解到数据的来源、数据之间的关系、数据流向、数据被引用次数等重要信息,便于用户直观地把握数据资产状况。同时,提供全域数据的检索功能,让用户能快速找到、理解、应用数据,利用数据驱动业务。
2.3.2 全链路数据生命周期管理
数据生命周期管理是数据中台的核心步骤,所有的数据都应该经过一条标准的处理流程:采集、清洗、融合、分析挖掘、应用、归档、销毁等。流程中每个步骤都要有对应的工具,帮助数据开发者快速上手,这些工具包括:数据模型设计与开发、数据ETL(包括可视化工具与脚本工具)、工作流调度等,并通过一些智能化的方式帮助数据开发人员快捷地完成数据开发任务,进一步降低数据开发成本。
2.3.3 面向分析挖掘的新型数据仓库
数据中台需要的新型数据仓库不仅仅是结构化的、离线数据,还包括非结构化的、实时的业务数据。因此,还需要借鉴传统数据仓库的设计理念,构建一套既能管理全域业务数据、又能支撑上层应用需求的新型数据仓库。基于这套数据仓库,数据科学家可以方便地查找并使用各类业务数据,进行深层次的数据分析与挖掘。
2.4 成熟易用的数据挖掘分析平台
数据挖掘分析平台架构在数据资产管理平台之上,可以为数据科学家、数据分析师提供稳定、高质量的跨主题数据资源、易用的分析工具集。数据挖掘分析平台可以支撑在大数据时代企业和政府在业务中的各种数据挖掘需求,例如以下几类。
2.4.1 自然语言理解与处理
利用机器学习、深度学习、深度迁移学习等技术,实现对分词词性标注、命名实体、情感分析、文本分类等。可快速从文档中抽取出知识,构建各种实体、映射关系,实现基于语义的深度理解并将信息知识化,支撑机器智能决策。
2.4.2 基于动态知识图谱的智能标签管理
动态知识图谱,是以本体论为方法论,对所属业务领域的数据进行分类、关联而构成的知识网络,用于支撑复杂的分析场景、知识发现与知识挖掘。其核心是构建了“实体-关系-标签”三个业务要素,其中实体包括:人、事、地、物、组织等。复杂业务场景下的的知识图谱,应用不同的存储介质存储多种不同类型数据,并且在数据融合之后还能将不同介质中的数据进行连接与关联,实现关联访问与挖掘的效果。
2.4.3 交互式机器学习
2012年左右,中国传统行业开始进入数字化转型的道路,不同行业拥抱大数据技术的维度和速度略有差异,但基本都会结合自己的数据状况、需求优先级选择构建适合于公司发展的大数据底层平台。随着企业能获取到的数据量级和结构的多样化,企业急需一套适用于不同治理类型数据的数据平台。另一方面,随着企业内外部不同部门的需求进一步增加,如何更好地将企业的数据资源盘点清楚并高效地支撑这些需求,就成为企业IT负责人考虑的首要问题。在这样的背景下,企业数据中台也逐渐在各行业应用起来。 3.3 数据中台在政府落地情况 2015年国务院印发了《促进大数据发展行动纲要》,发展大数据已然成为国家级战略规划,行动纲要中对政府在大数据方面的工作提出了更新、更高的要求。经过几年的发展,政务网络基本建成,政务外网已覆盖大多数业务部门;数据中心已初具规模,各业务部门应用数据已基本集中。“数据孤岛”现象正逐步打破,信息共享开放正逐步展开。但是,政府在建设大数据的过程中仍然存在很多不足,一是政府数据资源开放程度不足,受制于不同部门的不同管理制度和信息化技术的壁垒,政府的很多数据资源仍未对社会机构和企业完全开放;二是对数据的融合和创新应用能力不足,目前政府数据资源还停留在数据集中存储、多部门简单共享的层面,对数据的集中融合、再加工等综合创新应用不足。 总体而言,数据中台将会朝着数据更多样、底层更智能、上层使用更加简单、应用更丰富的方向发展,在不远的将来,中国将迎来各行业与政府依托数据中台进行数字化转型和构建数据智能应用的热潮,而蓬勃发展的相关技术也将为数据中台功能的完善与升级提供更多的可能性。