如何通过指标标准化赋能自助式分析

Author
Luke Han
2022年 6月 30日

如今,许多企业都在进行自助式分析方面的探索,希望能通过自助式分析解决方案,帮助用户更充分地利用数据进行分析,从而为组织和机构创造更多的价值。同时,越来越多的企业开始通过云数据湖和云数据仓库等技术来加速数字化转型;但对技术专家们而言,能将业务定义整合到一处并提供一个值得信赖、易于理解、易于发现、并兼具成本效益的单一数据源,并非易事。

另一方面,业务人员也发现很难基于他们所熟知的业务指标来获取可信数据。此外,企业在以数据分析为导向进行业务决策时,依然高度依赖于 IT 人员。

本篇博客将以一家科技公司为例,浅析其数字化转型之路。在历经业务迅猛增长和为期两年的数据平台建设之后,该家公司已经拥有了海量数据,该公司正面临如下挑战:

  • 数据无法有效支撑公司层面的战略落地
  • 缺失统一的业务语义
  • 业务人员对数据缺乏信任,因此数据平台利用率较低
  • 数据量庞大:运维数据存储(ODS)表从 5700 张激增至数据仓库(DW)中的 100 万张表
  • 数据血缘混沌不清:下游有 1 万张宽表与核心表 TX_ORDERS  存在引用关系
  • 大量重复的 ETL 工作以及计算资源的浪费

这些问题最终将公司拖入了一片数据泥沼,大家对数据失去信任,业务自助式分析更无从谈起。

这家公司迫切希望能改变他们的数据分析现状,即能通过受治理的指标来替代现有的自助式 ETL 流程,这样每年还能实现数百万美元的 IT 预算节省。

什么是指标中台?

企业可以借助指标中台来有效解决上述问题,指标中台(Metrics Store)是位于上游 DW/数据源和下游业务应用程序之间的中间层

指标中台将指标定义与 BI 和数据仓库解耦。负责指标管理的团队能够在指标中台中对其指标进行一次性定义,从而创建单一数据源。之后,他们就可以在各种 BI、自动化工具、业务工作流甚至高级分析操作中连贯一致地复用这些指标。

指标至关重要

“在管理业务流程或任何生产流程时,除非持续追踪绩效指标,否则你无从知晓自己是否在不断进步。”现代管理学之父彼得·德鲁克(Peter Drucker)的至理名言表达了这样一个观点:无法度量,就无法优化。

指标中台首先是一个管理系统,其次才是一个数据系统。与 ERP 系统一样,其核心是提高管理水平;大数据技术旨在提高度量准确性和管理效率。不论是数据仓库、数据湖、ETL/ELT、各种 BI 工具及报表,所有大数据技术都是用于为管理决策提供指引,技术本身并非最终目的。如果企业想要优化其管理系统,那么指标将是其中的关键。

作为最常见的一种解决方案,人们会非常自然地选择将指标保存在分析系统和 BI 工具中,毕竟即使仅凭直觉,我们也会将指标保存在它待使用的环境。但这也会带来数据的一致性问题。保存在 BI 工具中的指标定义形成了一个孤岛,难以跨应用实现复用。当一家机构中存在多款 BI 工具时(这种情况并不罕见,因为每个业务部门都自己偏好的 BI),我们很难对不同 BI 平台上的指标进行标准化。

另一个典型解决方案是将指标定义保存在数据仓库中并进行计算,但这个方案也存在以下问题:

  • 与 BI 工具类似,这一方案需要一系列的分析引擎来支持各种用户场景;也因此,在各种分析引擎之上再构建一个统一的指标层并不可行。
  • 此外,大部分数据仓库从业者都清楚,对业务用户而言,他们其实很难理解数仓中的数据。如果将指标存储在数仓之中,业务人员的学习曲线会十分陡峭。

指标中台可提供什么帮助?

指标中台如何帮助企业解决上述问题?让我们回顾下前文提及的科技公司的例子。该科技公司可以通过在 ODS 表和业务应用程序之间放置一个指标中台,对业务需求进行标准化处理,而不是在不加治理的情况下在数据仓库中创建过多的聚合表。IT 团队只需在一个地方管理指标,并帮助所有业务团队实现指标的标准化。各类业务需求都可以通过指标中台内包含的 2000 个基本指标进行标准化转化和复用。这一标准化解决方案可以省掉 90%-95% 的 ETL 工作。

业务用户可以在消费端使用自助式服务,自行创建指标,解决消费端数据分析的最后一公里。得益于这种创新型的自助式分析与治理流程,业务用户可以基于受治理的基本指标构建派生指标。

对 IT 治理和业务创新的助益

我们不仅可以将指标保存在数据仓库/数据湖或是 BI 中,还可以将指标保存在独立的指标存储库(即指标中台)中。指标中台可帮助企业解决部分数据孤岛和可信度的问题,并具备如下优势:

  • 自助式业务分析:在无需 IT 团队参与的情况下,业务人员就可以轻松构建自己的指标并实现复用。
  • 数据信任:指标中台为企业带来了单一数据信源。得益于指标的标准化和良好治理,业务团队将重拾其对数据的信心、恢复对数据的信任度。
  • 数据治理:在之前的方法中,虽然人人都可以在 BI 或数据仓库中创建指标,但这也会造成数据治理混乱和不善等问题。得益于单一的可复用对指标存储库,IT 人员可以轻松追踪数据血缘和数据使用情况。
  • 以最优的成本管理数据:指标中台有助于解决 ETL 流程和管理中的乱局,大幅减少企业 IT 团队的工作量。

关于 Kyligence

上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 创始团队于 2016 年创办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。通过 AI 增强的高性能分析引擎、统一 SQL 服务接口、业务语义层等功能,Kyligence 提供成本最优的多维数据分析能力,支撑企业商务智能(BI)分析、灵活查询和互联网级数据服务等多类应用场景,助力企业构建更可靠的指标体系,释放业务自助分析潜力。

Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售等行业客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等全球知名企业,并和微软、亚马逊、华为、Tableau 等技术领导者达成全球合作伙伴关系。目前公司已经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。

申请试用
关注我们