一文读懂企业如何进行数据资产服务平台转型

周倚平
2021年 9月 07日

在 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会的「数字化转型」分论坛上,Kyligence 解决方案总监周倚平带来了对数据资产服务平台转型的思考与探索。结合 Kyligence 服务多个大型企业在数字化平台能力建设方面的经验,他分享了数字资产的整合智能化以及数据资产赋能业务等方面的挑战、解决方案以及案例实践,希望可以给大家带来一些启发~

-- 以下为周倚平在大会演讲实录 --

大家好!我是来自 Kyligence 的周倚平,我在 IT 从业将近 15 年,近十年主要在做架构和解决方案。虽然一直处在 IT 领域,但早些年我对数字化转型的理解,和很多人一样,也是停留在口号和概念的阶段。但是,近些年随着我们身边数字化转型案例的不断涌现,比如购物数字化、支付数字化、出行数字化,还有最近贝壳找房将房产中介数字化等,都让大家对数字化转型有了更深刻的理解。

今天我想跟大家分享在整个数字化转型的过程当中,我们对于数据资产服务平台的架构的想法和观点。

背景与现状

首先我们来看什么叫数字化,其实数字化的本质是在现实空间之外创造了数字空间,企业的行为活动、组织形态都会逐步迁移到数字空间里,数字空间和现实空间有着不同的规律和法则。通过这种差异性,整个行业会被重塑。

数字化的目的是什么呢?基于万物互联的数字空间,我们能够实现更快、更好的资源配置,为客户提供更好的服务。

从智慧出行看行业数字化转型

其实包括滴滴、美团打车、T3 出行等在内的「智慧出行」就是一个很好的行业数字化转型的案例。从出行的角度来说,这些企业创造了一个数字空间,在这个空间里面,车和人会有一个数字的孪生体,手机作为一个传感器,传递着人和车的基本信息。

就车来说,它的基本信息是车的位置以及车是否载人。对于人来说,基本信息就是人在哪里,以及人要去哪里。在这些基本信息的数据基础上,再加上人车匹配的算法,「智慧出行」就把人、车以及人车间匹配的关系从现实世界转移到了数字空间,从而重塑了打车甚至出行的整个行业

过去我们要打车,通常是站在路边看是不是有车过来,然后司机也看乘客,大家确认眼神上车。智慧出行创造的空间是什么呢?首先不是人去看,是计算机去看,是 AI 去看。AI 能看无限远,所以它能够快速的帮助我们找到空车,出租车司机也能找到乘客,降低了大家等待的时间,从而实现更快、更好的资源配置。

「智慧出行」对于整个出行行业带来的影响是什么呢?在现实空间中,这个车是属于司机或者租赁公司,但是在数字化空间里面,车其实属于「智慧出行」企业的。如果用户想要打到车,就必须进入这个数字化的空间。同理,如果出租车的驾驶员要找到乘客,也必须进入这么一个数字化空间。这样一来,传统出租车公司就会被逐步淘汰掉了。从这个角度看,数字化转型对于大多数企业来说,可能已经是关乎生死存亡的大事。

今天我并不是想讲业务的数字化,更多的是想结合 Kyligence 和很多大型企业在数字化平台能力建设方面的一些经验,谈谈整个数字资产的整合智能化,以及在赋能业务方面我们的一些思考。

企业数字化架构框架:自顶向下

为了支撑数字化转型,企业通常会使用上图这种自顶向下的架构。基于行业成熟的方法论,企业的战略通过业务模型拆解到业务活动当中,然后转化为 IT 的需求,再通过技术的平台和工具,去将整个企业信息平台打造出来,从而去支撑企业整个的战略转型。这是过去我们通常会使用的方法。

成功案例

这种方法在业界有一个非常成功的典型案例,就是某国有大行的新一代核心系统的建设。2010 年某国有大行提出了整个新的企业发展战略,同时启动了新一代的核心系统的建设,去支撑这个战略。这应该也是国内金融史上最庞大、最复杂的一个系统工程的建设。

当时某国有大行正是基于这种自上而下的企业信息架构的方法去进行整体规划,并且专门成立了一个数据治理委员会,从业务和 IT 架构两方面,去进行了统一的顶层设计和规划。首先,某国有大行投入了大量的人力,近万人的投入,整个项目落地花了六年半的时间才完成。也是借助于此,某国有大行在客户运营、风口、产品和服务领域数字化建设上面得到了很大的发展,这是采用自上而下企业数字化转型成功的案例。

重重挑战

当然我们也在思考这种自上而下的建设方法,对于今天的企业来说是否仍然适用,或者说,这种方法是否会带来新的挑战。通过某国有大行的案例大家也可以看到,因为它是从顶层设计到底层的业务拆解,整个自上而下的过程是非常复杂的,投入成本非常高。

但如今的信息化社会,企业的业务、客户,甚至企业的监管、竞争对手,都在时刻发生着变化。今天整个系统设计是否能满足几年后业务的需求,整个的投资收益有多大,对于企业来说都是难以决策的问题。今天企业可能投入巨资去建设一个数据中心或者数据平台,但这些技术投资在几年后究竟会不会贬值,或者很快会被新技术淘汰等,其实都是企业需要思考的问题。

从数据服务到数据资产服务

1. 什么是数据服务和数据资产服务?

在当今数字化转型的过程中,我们更想从数据服务转向聚焦于数据资产服务。

什么是数据服务?过去我们通常说数据服务就是 IT 根据业务需求,比如开发一些报表给到业务方,业务方再根据这些数据去做一定的业务决策,这是很传统的决策过程。或者是有时候业务需求太多了,IT 实在忙不过来,IT 就把明细数据给到业务,让业务自己基于这些数据去做分析。

但是上述方式更多的是一种被动的响应。而我们所说的数据资产服务,则是更强调 IT 在给业务提供数据服务的过程当中,能够不断的去沉淀、积累、提炼高价值的数据,然后对这些数据形成企业级的数据资产明确数据的权责量化数据资产的价值。通过这种方式,就能把这些数据资产变成一种数据服务,开放给业务,让业务能够自主使用这些数据,这是我们所说的数据资产服务的本质。

2. 数据资产服务平台转型策略

自上而下和自下而上相结合的转型策略

如何去实现从数据服务到数据资产服务的转变呢?根据 Kyligence 与多家大型企业的实践经验,我们更加推荐自上而下以及自下而上相结合的精益式的转型策略

自上而下是以企业的战略为目标,以服务业务为导向,然后借助一些先进的技术和平台,然后选择在企业里面最重要、最紧急,或者说能够看到最能够产生收益的、价值可视化的场景。然后结合这些场景,自上而下发动中层和基层的团队,去开展创新。

中层和基层团队的优势在于离业务更近,他们更知道如何去帮助业务成功。同时,他们也知道怎么去量化这些成功的标准,所以通过这种自上而下的方式,可以让基层团队通过一些微创新的方式,去开展数字化转型的一些实践。

在企业进行数字化转型的过程中,很关键的一点就是要实现效果的可视化,就是说在整个微创新或者数字化转型过程中,哪怕是取得了一些阶段性的成功,都需要把这些成果可视化,让大家能看到数字化转型给业务带来的实际帮助。

把可视化的价值传递出去,才能在企业内部得到更多对数字化转型变革的认可,大家才会去效仿。不然企业内部组织架构,或者人的因素,可能都会变成数字化转型的障碍。因此,在数字化转型的过程中,一定要实现价值可视化,让更多的人了解和知道。

2. 数据架构:维度模型方法论成行业主流

这是阿里的数据架构图,阿里将整个数据平台分为了三层。在计算层和应用层,阿里会使用维度建模的方法,维度建模以具体的业务决策的需求为导向。这种方法的好处在于,不需要对数据仓库做非常复杂的设计,可直接对接业务需求并实现数据展现的结果。

当然使用这种方式,并不是说不需要数据标准,或者说可以任意的去开发数据。所以在这个过程当中,虽然使用的是维度建模的方式,但仍然需要进行数据资产的统一规范,以及统一提供对外的服务

3. 转型面临的困难

因此在整个数据服务到数据资产服务转型过程当中,我们也会面临着一些困难和挑战。

首先,前面大家看到的阿里架构,其实很大一部分的数据模型是在数据应用层,随着数据的应用越来越多,我们会发现很多企业的数据应用层会变得越来越臃肿、庞大IT 团队很难去进行管控和治理数据应用层的这些数据,这对于现在很多维度建模架构来说,已经是非常普遍的挑战。

其次,企业提出了「全民分析师」的概念,就是把数据决策的能力,赋予管理层、中层,甚至到一线的业务人员,让他们都能够使用数据去赋能业务。对于数据平台或者说数据服务方来说,如何搭建一个高可靠高性能,而且还能满足不同人分析需求的平台,这也是很多 IT 团队面临的困难。

另外,随着平台里面数据不断的膨胀,到底哪些是高价值的数据,这个也是现在数据团队面临的困境。因为他只知道这些数据是根据业务需求开发出来的,但是这些数据哪些是业务真正关心的,是企业的核心资产?其实对于 IT 来说他并不知道。对于 IT 来说,他希望能够把这些信息梳理出来,有了这些信息他才能够有针对性的去做数据治理,来提升业务的满意度。

挑战一:数据应用层碎片化

在座相信有很多朋友是做数仓或者 BI 的,我们最早拥抱大数据的时候,理想的架构可能是左图这样一个非常清晰敏捷的架构,也是现在大家主流推崇的架构。

但往往在实际过程当中,我们的架构往往如右图所示,整个数据应用层由于数据团队面向需求的开发,变得非常臃肿,里面充斥着大量的宽表、冗余的指标,而且指标定义也是非常模糊的,每个团队都是像烟囱式的去进行开发。对于数据应用层来说,它就会变得越来越碎片化,难以进行数据的治理和管控。

解决方案:模型治理化,开发自动化,业务自主化

对于 Kyligence 来说,我们的解决方案是什么呢?首先我们在数据应用层的最底层会构建原子指标层,后续所有的数据资产、业务指标,都会通过原子指标层进行衍生或者是复合计算来生产。这样我们做数据治理就有方向,我们只需要对原子指标层进行数据管控和治理,从数据源头把控整个数据的质量,以及数据的时效性等关键因素

之后,再借助 Kyligence 的 AI 增强引擎,我们可以将原子指标层加工出多维模型,并通过自动化的方式开发出来。在过去,这个过程通常是由数据团队表哥表姐开发出来的,Kyligence 通过自动化的方式快速生产业务所需要的指标,我们就有了多维数据模型。

但是有了多维数据模型,业务是否能直接使用呢?

其实还是不行,因为它偏 IT、偏底层数据,对于业务来说,是没有办法使用这些非常底层的数据,需要科学家把多维数据库转化成业务语义模型,这个业务语义模型再对外暴露成业务能够理解的一种形态,比如 Excel 里的透视表。

这样一来,无论是分析师、BI 工程师、业务人员,甚至是数据挖掘专家,都可以统一地去访问业务语义层,来获取到他想要的数据。对于 IT 来说,只要把平台准备好,后续都是业务自己访问和使用数据的,这样就实现了前面所说的自助式提供数据服务

案例分享:某国有大行经营作战指挥室

如图,这是 Kyligence 实现的经营作战指挥室的架构。首先由数据资产管理平台向整个经营作战室,提供经过管控的原子指标,这些原子指标再经过 Kyligence 的引擎进行自动化的生产和加工,形成最终业务所需要的业务数据。

因为整个的生产过程都是自动化的,所以整个数据加工的血缘可以由系统自动推导出来,它可以精确到字段级的数据血缘的追溯和管理。这也是很多做数据的同事过去会面临的挑战,以往如果通过手工的方式去开发数据,当上游数据发生变化的时候,怎么去进行影响性分析,是非常大的痛点。但是现在通过模型化、自动化的开发方式,就能够实现对数据血缘自动的识别、解析,来帮助我们进行整个数据平台的管理

挑战二:数据服务的不可能三角

其次,对企业来说还要实现数据平民化,要能够给不同角色的用户提供不同需求的数据服务,这里对 IT 来说就会面临一个问题,用户的需求是多种多样的,有的用户要求性能快,有的用户要做数据探索,要求做到敏捷、灵活。但对于 IT 来说,需要控制平台的成本,不可能无限制的扩容机器

这里有一个概念是据服务的不可能三角,即无论哪种技术,永远不可能做到成本、速度、灵活同时实现。往往在实际过程中,IT 会根据业务需求的不同,首先尽可能满足其中两项的目标,第三项目标不得不做一些折中,这就是数据服务的不可能三角。

但这三项目标是永远不可能达到的吗?

解决方案:统一数据服务层,数据虚拟化降低 TCO

Kyligence 的一个解决方案,就是通过构建统一的数据服务层,利用数据虚拟化的技术,达到这三项目标。没有一项技术可以同时达到这三个目标,但是如果我有不同的引擎,有不同的技术,就有可能同时满足这三个目标。

我们可以看到,Kyligence 底层有预计算引擎,有 ClickHouse 灵活查询的引擎(智能分层存储),还有智能下压的引擎,通过这些引擎的混合即可实现目标

比如,面向报表的应用要求高性能高并发而且成本可控,这时就可以使用预计算技术。但是对于数据科学家要做的一些灵活探索场景,就可以使用智能分层存储的技术,或者说智能查询下压的技术,来响应敏捷的查询需求,同时它的性能也是能够得到保证的。

所以,通过构建数据虚拟化的技术,就能够融合不同引擎的优点。而且在这个过程中,由于 Kyligence 语义层的能力,我们屏蔽了用户对这些技术的感知。所以对于用户来说,他根本不需要了解数据在哪里,使用什么样的引擎,性能如何等,他更多的是访问 IT 提供的数据集,快速得到他想要的数据,至于底层的实现业务人员根本不需要关心。

案例分享:某大型券商数据服务平台建设

这是我们在一家大型券商实现的统一数据服务平台。在这个平台上,我们可以看到券商的底层数据源非常多,不同场景的数据会存储在不同的引擎上。通过 Kyligence 统一数据服务的技术,能将不同的数据源连接起来,再在上面统一构建业务模型,通过微服务的架构,向应用提供数据服务的能力,从而给企业带来多个好处:

首先,这个平台能够一站式提供汇总查询、明细查询和大规模数据下载的服务,来满足不同用户需求;

其次,由于平台是统一构建业务模型的,所以它和底层数据是解耦的。当底层数据发生变化的时候,业务模型是不变的,对于上层数据应用的使用方来说是无感知的,比如底层的表变了或者字段更名,对于 IT 来说是经常发生的事情,但是如果没有这个架构的话,可能服务要重新上线,不仅带来很大的风险,而且有很大的工作量。基于这样架构,整个底层数据的变动,对上层应用整个解耦,对于应用的使用方来说无感。

对于 IT 来说,他需要管控数据访问的权限,包括用户访问的数据等,都要在数据服务层进行统一的管控。否则,他需要在下面每一个数据源分别实施一套数据管控的体系,这样会对数据应用和运维带来很大的压力。

挑战三:识别和管理高价值数据资产

第三个挑战,我们如何在提供数据服务过程中,识别管理最有价值数据资产

首先是如何去识别数据平台哪些是热点维度和指标,哪些报表访问频率更高,用户访问行为是怎样的,数据热点访问区域在哪里。通过对这些热点数据资产的识别,我们可以进行相应的管理,比如说对于热点的维度和指标,我们可以提升它的时效性、数据质量。

解决方案:字段级的数据血缘识别和管理

这里大家可以看到,通过 Kyligence 基于 AI 增强的开发模式,整个数据血缘都可以形成指标字段级的血缘追踪,来帮助 IT 进行管理。

案例分享:某股份制银行指标平台,实现数据边应用边治理

这是我们在一家股份制银行实现的指标平台的案例,过去他们也存在数据应用层碎片化的问题,整个数据应用层被大量重复开发。建设指标平台能够帮助梳理平台里面重要的指标,然后把指标进行沉淀,重复使用。把这些数据沉淀下来以后,就可以和上层的 AI 类的应用、用户指标推荐的应用结合起来,去赋能更多的用户。因为过去这些应用往往是烟囱式的开发,它只能给到某一个团队使用,但是当我要把这些应用扩大的时候,这里涉及到大量底层数据开发的工作。

对于数据资产服务平台来说,过去我们去做这样的平台,往往是数据资产管理和数据资产服务是两条腿,这两条腿往往走起来是不太协调的。如果对数据治理特别严格,数据服务的灵活性就会受到影响,可能满足不了业务的需求。但是如果数据服务特别灵活,业务想要什么就给他什么,这个时候数据治理的管控就会被弱化。

过去很多时候这两块是由两个团队分别去实施的,所以往往大家会存在一些权责不明确或者说有很多割裂的情况。现在通过 Kyligence 智能数据云解决方案,能够把数据资产管理和服务融为一体,将过去传统的业务提需求,IT 响应的被动服务模式,转变为数据资产化、平台自动化、以及业务自助化的主动服务模式。通过这种方式能够不断的沉淀我们企业的数据资产,并把这些数据资产中高价值的部分包装成服务提供给业务方,让业务方能够更好的去使用这些数据,从而助力整个企业数字化转型。

点击观看完整演讲视频,下载演讲资料。


关于 Kyligence

Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。基于机器学习和 AI 技术,Kyligence 从多云的数据存储中识别和管理最有价值数据,并提供高性能、高并发的数据服务以支撑各种数据分析与应用,同时不断降低 TCO。Kyligence 已服务中国、美国及亚太的多个银行、保险、制造、零售等客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUM、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。公司已通过 ISO9001,ISO27001 及 SOC2 Type1 等各项认证及审计,并在全球范围内拥有众多生态合作伙伴。

申请试用
关注我们