揭秘语义层|如何让人人都能看懂数据?

Author
Kyligence
2022年 4月 14日

数据分析日益增长的多样化需求

信息化时代之初,由于大部分员工缺乏大数据相关的技能和培训,分析和解释数据的话语权大多掌握在少数拥有专业能力的数据分析师手中。

然而,随着各种技术、产品和解决方案的出现,非数据分析师也能分析和解释数据,数据平民化让数据能够安全、方便、快捷地从少数数据分析师传递到公司大部分业务人员手中。

语义层可以服务数字化领域中数据分析的不同角色,如业务用户、数据分析师、数据工程师、数据科学家等。当然,这些角色的最终目的都是为了更好地服务于业务价值,我们可以从下图看出这些角色的职责和所需技能。

在麦肯锡发布的报告《2025年的数据驱动企业》中预测:到 2025 年,几乎所有员工都会利用数据来支撑自己工作。他们无需通过复杂和漫长的流程和数据管道来解决问题,而是通过创新的数据架构在数小时内解决挑战。

同时,《2025年的数据驱动企业》还提出了一个重要趋势,新的角色「数据分析工程师」将崛起。数据分析工程师不仅要会 SQL 和 ETL ,还要对 Python、云计算和 BI 工具有深刻的了解。

越来越多的数据消费者希望实现数据分析的目的,同时也对数据的定义、计算、颗粒度、刷新频率和结构化状态都有着各种不同的要求,这也对数据平台带来了多重挑战。这也就是「语义层」这一概念又重新火热的原因。从上述挑战中,我们可以总结出未来的数据分析解决方案需要遵循的原则:

  • 结果导向型:与广泛的企业目标一致;
  • 提供用户价值:具备易用性、灵活性,支持实现复杂分析;
  • 易于学习:直观掌握,可重复使用,易于访问;
  • 安全性高:提供治理体系和完善的访问安全认证;
  • SLA 和成本优化:满足企业对高性能、高可靠的需求,提供高质量的数据,同时具备高性价比。

符合上述原则,能够支持不断增长的数据消费者、业务用户和企业,语义层在数据之上添加了「意义」(元数据)或者「业务知识」作为额外的抽象层,为两者之间搭建了桥梁。

企业搭建了语义层之后,前端就可以支持到多样的应用,例如企业搜索、业务分析、BI 仪表盘、聊天机器人和自然语言处理等。

除了需要满足语义需求多样性,企业还需要解决数据孤岛问题。要实现企业内部的目标一致性,就需要对各个部门的数据进行统一管理。但是由于多种原因,企业内的数据往往分散地存放在不同的位置,如本地服务器、数据中心、云、离线文件等等。

接下来,我们将简单介绍语义层的定义、特性,以及如何解决上述挑战。

语义层定义和起源

语义层指的是是企业数据的业务展现形式,业务用户使用通用业务术语,就能自主地访问数据。语义层将复杂的数据映射成熟悉的业务术语,如产品、客户或收入,来提供整个组织的统一、综合的数据视图。

语义层并非一个全新的概念。在 2013 年,SAP 就提到了语义层 (Semantic Layer) 。当年 BusinessObject、MicroStrategy、Cognos、OBIEE 等传统 BI 平台还“一统天下”,它们都希望自己的平台是单一的真实信息来源 (Single Version of Truth),也期望用户在其平台上搭建统一的语义层。承接应用生态和业务用户,这小小的语义层就关乎了产品整体的战略乃至企业的信息化布局。

传统的语义层通常位于数据仓库之上,这样具有可维护性、数据一致性和可拓展性等优点。也有部分语义层位于 BI 产品中,例如上文提到的 BO、Cognos、MicroStrategy 等,也可以提供易用性和业务友好的语言,但是受限于 BI 产品的支持,灵活性和可复用性有所下降。然而,当时的语义层并没有真正让用户用起来,原因大概是当时的语义层是由 IT 部门建设,但 IT 部门又忙于推进以 IT 为主导的数据安全、数据管理等目标,没有及时向业务部门提供他们需要的数据分析能力。从已有案例来看,IT 部门主导建立的语义层往往存在以下痛点:

  • IT 部门难以建立和维护;
  • 业务用户难以使用、定制和更新。

这也意味着语义层通常是个只有 IT 部门在使用的平台,这种对 IT 部门的依赖性极大地影响了语义层的部署、使用和推广。

因此,业务用户纷纷转向选择敏捷式 BI,这也促使了 Tableau 和 PowerBI 等的流行。

语义层有哪些特性?

语义层是分析战略的一个重要元素,它是一个可定制且对业务用户友好的维度、度量和指标数据的存储库。

随着时间发展,数据仓库、数据中台、数据湖等技术和平台都在更迭,但是语义层这个业务和数据沟通的桥梁却始终没有消失。一个好的语义层应该具备什么样的特性?Kyligence 服务了多个客户搭建统一语义层,同时我们也参考了 Gartner 等行业报告,总结出了下重要特性:

  • 将数据字段翻译为业务用户的术语,通过用户友好的方式来展现数据;
  • 针对业务计算逻辑,进行数据语义的加工、描述、关联和运算;
  • 根据不同用户权限设置内容和应用规则。

具有上述特性的语义层能够满足企业对数据分析解决方案的需求,在为用户提供易用性的同时,兼顾了安全性和性价比。通过将语义层作为组织的企业架构的一部分,企业将能够实现以下关键业务优势:

  • 结果导向:把多源数据按业务需求定义成语义信息,形成语义标准;
  • 用户价值:让业务用户和决策者无需具备大数据技能,就可以从大数据中获得洞察力;
  • 易于学习:与业务需求相一致,用户界面友好,易于访问和掌握;
  • 安全性高:实现统一的事实来源和高度化集中的权限管控,提高安全性;
  • 成本优化:整个企业数据统一性将复制和迁移工作的风险和成本降至最低。

数据仓库、数据湖和数据湖仓一体可以说是当今最流行的数据整合方法。和语义层结合,能够将其与云端、企业内部和边缘的数据生态系统的其他部分连接起来,可以确保它们的持续相关性。

总而言之,语义层是十分适合作为企业实现管理组织信息资产的集成框架。对于企业而言,重要的是要专注于语义层解决方案中以业务为中心的价值。Kyligence 解决方案此前多次入选 Gartner 语义层相关报告,同时也获得了多个企业级客户的认可,这也进一步证明语义层在企业级部署场景下是具有关键价值的,今天我们就来介绍下 Kyligence 的统一语义层解决方案。

Kyligence 如何实现语义层

Kyligence 作为智能多维数据库,基于大数据技术带来了开创性的即时分析能力。Kyligence 提供的 AI 增强型大数据平台基于分布式技术,从创立之初就致力于解决传统 BI 在大数据上的挑战,其为 BI 用户提供了友好的 SQL 或 MDX 标准接口,可无缝集成市面主流 BI,提供统一的基于大数据的业务语义层,且实现企业级 IT 的大数据安全管控,助力企业降低 IT 成本,助力业务实现数据驱动的价值。

  • Kyligence 基于云原生和大数据的生态,可实现本地+云的混合灵活部署、多种的数据源接入,可有效地避免数据孤岛的情况,可以作为企业信息架构的单一事实源;
  • 基于行列多种权限的管控,Kyligence 能够实现企业级的内容权限管理。用户和数据访问管理可以统一配置在大数据平台的数据资产层,并作用到所有上层业务应用。因此 IT 无需对下游系统再配置额外的数据访问控制;
  • 支持 SQL、MDX、Rest API 多种查询接口,以及多种 BI 和分析工具,满足多样化的数据消费者的需求。

上图为 Kyligence 企业级大数据解决方案的架构图,这一方案极大地简化和改进了传统的大数据 BI 分析,助力企业搭建面向业务人员的统一数据分析平台。

Kyligence 解决方案的核心是统一语义层,它将表、列等技术语言转换成业务用户可以理解的模型、维度、度量,让数据消费者从分析表转变为分析模型,降低数据分析的门槛。语义层不仅包含模型、维度、度量,还包含业务指标(如原子指标、复合指标),层级结构,以及维度层级、翻译、命名集等概念,为用户提供增强的业务语义层。除此之外,通过行业标准 XMLA 协议接口,用户可直接使用 Excel、Tableau、MicroStrategy,Power BI 等标准 BI 工具消费统一的语义层模型。

和传统 BI 分析架构中语义信息存在 BI 工具层有所区别,Kyligence 的统一语义层实现不同业务部门之间共享的业务逻辑,无需基于每个 BI 工具再单独开发割裂的语义信息。

为各种分析商业智能提供统一语义层的挑战是,不同的 BI 工具使用的查询语言存在差异。有些前端工具,比如 Tableau,较多使用 SQL 接口,而其他工具(如微软 Excel)只能使用 MDX(多维表达式语言)动态查询数据源。

选用 Kyligence 统一语义层后,企业使用同一个数据模型即可满足不同的查询。Kyligence 的数据模型可以通过 SQL(ODBC 或 JDBC)接口暴露成类似关系型数据库的表,也可以暴露为兼容 XMLA 协议、带有语义信息的数据源,可通过 MDX 语言进行查询。无论客户使用什么 BI 工具,都可以查询统一的业务逻辑。目前 Kyligence 已支持无缝集成 Tableau、Power BI、Excel、Cognos、MicroStrategy、BO、OBIEE 等工具。

Kyligence 语义层助力 Excel 分析大数据

Excel 目前仍是业务用户最熟悉的工具。随着业务数据的激增,Excel 难以支撑海量数据的分析,如何在不影响业务用户分析习惯的前提下,通过技术架构升级提高分析效率,是企业面临的难点之一。

Kyligence 智能多维数据库为企业提供统一的业务语义定义能力,并能够直连 Excel,帮助企业实现数据平台架构升级,释放业务价值。