Kyligence Copilot - AI 数智助理,以 AI 变革企业经营与管理! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
智能数据云,将改变人类使用数据的习惯, 让使用数据变得更加简单, 让最有价值的数据被看见! Kyligence 联合创始人兼 CTO 李扬
Kyligence 成立五年多来,我们一直专注在数据服务与管理方向,目前已经服务金融、零售、制造等全球头部客户。在这个过程中,我们一直在思考,并不断和客户探讨一个话题:
数据仓库的未来,应该是什么样子?
随着海量数据高速增长、数据特征越来越多样、数据源越来越繁杂以及技术间的整合和平台间的集成带来的难度,无论是传统的数据仓库,还是近几年热门的数据湖、湖仓一体等,虽然都解决了一部分问题,但也有不少弊端显露。特别是人工智能和云计算的发展,本就该给数据服务带来更多可能,所以我想通过这篇文章谈谈我们对数据仓库发展的看法以及对未来的展望。
近几年,随着数据湖、湖仓一体概念的兴起,业界对于它们与数据仓库之间的对比甚至争论始终不断。这三种技术平台在不同程度上为客户解决了一些痛点,不过随着行业需求的演变,它们的价值定位又发生了一些变化。
数据仓库(Data Warehouse)的早期概念数据集市(Data Marts)在 70 年代由 AC 尼尔森提出。1988 年 Bill Inmon 发表了名为《业务信息系统架构》的论文,从而正式介绍了数据仓库的概念和建设方法论。随后在 1996 年,Ralph Kimball 发表“数据仓库工具箱”介绍了维度建模。从此,数据仓库在 Bill 的自顶向下模式 和 Kimball 的自底向上模式之间争吵,直到现在。
数据仓库以主题模型为核心,能够支持企业数据管理和分析的核心诉求,数据仓库本身并不“生产”任何数据,同时自身也不“消费”任何数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。
在数仓理论发展至今的 30 年间,越来越多企业选用数据仓库架构作为数据平台建设的标准和核心,分层构建多维数据模型和业务模型层。下游通过 ETL 工具对接各类数据源进行数据整合,上游数据应用进行数据消费提供分析决策。
不过,随着互联网等数字经济的蓬勃发展,数据量呈现爆发式增长,非结构化数据、半结构化数据不断涌现,数据更新也更加频繁,数据仓库难以支持这些场景的需求,即大数据著名 4V 问题:volume, variety, velocity, veracity。此外,还存在无法与数仓外的数据协同的问题,尤其是目前多云、多数据源等现实,使得“数据仓库”重新形成了“数据孤岛”,让业务人员很难获得全局数据视图。
数据湖(Data lake)这一技术概念在 2015 年由 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出。它是一种将数据以原始格式存储在同一个系统或存储库的理念,以便于收集多个数据源的数据以及各种数据结构的数据。数据湖依托于可扩展的、低成本分布式存储或云对象存储,创建了一个适用于所有格式数据的集中式数据存储,可以存储包括关系数据库的数据、半结构化数据、非结构化数据甚至二进制数据,将企业中的所有数据保存于同一个存储介质中,以用于报告、可视化、分析和机器学习等用途。
数据湖以离线批处理为主,能够灵活处理和分析结构化和非结构化数据,并快速得到结果,以缓解数仓的尴尬。但数据湖缺少数据管理能力,以及对数据质量的保障。对于数据管理团队来说,尽管管理了很大的数据量,但真正哪些数据是最有价值的,却始终不得而知。
正如 Gartner 在 2020 年的 Market Guide for Query Accelerators 报告中所描述的,数据仓库期望有数据湖的可扩展性,而数据湖则希望有数据仓库的企业级分析和管理能力。
湖仓一体的概念最早起源于 Databricks 提出的 Lakehouse:它是一种开放的架构,结合了数据湖和数据仓库特点,直接在数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。在具体实现上,Databricks 通过 Delta Lake 这款基于 Apache Parquet 加强升级的存储产品,实现了诸如事务支持、模式执行(Schema Enforcement)等传统数据湖相对薄弱的能力,提供了一种“湖中建仓”的可能。除了 Delta Lake,目前业界也有相同定位的其他产品,例如 Netflix 开源的 Iceberg 和 Uber 开源的 Hudi 等。
湖仓一体的概念非常具有吸引力,提供灵活的多样性算力和存算分离方案。但是在实际客户场景中,仍面临以下的问题:
更有甚者,将 Hadoop 和 MPP 数据仓库糅合在一起,希望通过捆绑的方式同时来提供湖和仓的能力,让不同的分析负载用不同的技术平台来承载,来支持复合负载。经过我们的实践以及对业界的观察,这个方案虽然看上去很美好,但运维复杂、技术栈不一,从而给整体的运维、稳定性、可管理性等都带来了巨大的挑战。
那么,还有没有更好的解决方案?
智能数据云让使用数据更简单!
在讨论“下一代”之前,我们先来看看时代大背景有了哪些变化,哪些前提和假设与之前有了不同:
不难看出,对于今天的数据仓库和数据湖产品而言,在以上大背景下提出的新需求都难以满足。尤其是目标用户由专家转变为普通人这一点,意味着今天所有以关系模型和 SQL 为基础的数据服务都存在过高的技术门槛。原因很简单,我们不可能要求普通人先学会关系数据库原理,理解了表、视图、主键外键、Join 运算等知识之后,才能使用数据服务,这是不现实的。
那么,下一代普通人也能用的数据仓库,
应该是什么样的呢?
我们称之为智能数据云(Intelligent Data Cloud),它让使用数据像使用水、使用电一样方便,人人都能随取随用,自助使用。
从技术角度来看,智能数据云是之前数据仓库、数据湖、湖仓一体等技术体系的继承和延续,既有数据湖低成本的存储可扩展性,也有数据仓库的强化数据结构和数据管理能力。同时,在此之上,智能数据云提供更高一层的业务数据对象管理能力,并从业务对数据的读写需求出发,使用 AI 增强的方式自动化和简化技术层面的人工数据操作和数据管理。向外,智能数据云提供普通人可用的数据服务;向内,智能数据云以业务为导向自动化数据的操作和管理。
智能数据云架构图如下图所示,我们来自下而上介绍一下:
共享的数据目录 Shared Data Catalog
汇聚各个数据源的数据目录,在整个智能数据云中共享。这是元数据级别的汇总,数据本身可以移动,也可以不移动,这点显著区别于数据湖。在企业内通过众筹模式,数据专家们可以协作标记、过滤、排序、整合、置信,最终共同维护一个共享数据目录。当数据源众多,人工智能爬虫可以代替人扫描所有数据源,收集信息和处理文字,自动生成一个初始的数据目录。
业务语义增强 Business Semantics Enrichment
为数据目录补充业务信息上下文,形成知识图谱和语义网络,构成了业务语义层的下半部分。有了业务语义,能让 IT 以外的普通业务人员也看懂数据、使用数据、甚至通过关联整合创造新的数据集。同时,带语义的元数据也能更好地指导人工智能,以业务目标为导向,自动优化整个数据系统。
业务数据对象 Business Data Objects
即业务层面的数据对象,如指标、标签、多维分析模型、图模型等,有了业务语义描述,就构成了业务语义层的上半部分。业务数据对象通过组合多个技术数据对象计算而来,如关系表、视图等。为提升性能,业务数据对象可以有自己的储存实体,如索引、物化视图等。或根据监管审计要求,业务数据对象也可以仅以虚拟形式存在,在查询时穿透到各个数据源,联合在线计算。业务数据对象通常被组织成层级结构,如:数据实体 > 业务对象 > 主题 > 主题域,形成企业级信息架构,以用作统一的数据治理和安全管控。
数据运维自动化 Data Ops Automation
由于业务语义增强打通了数据的技术定义和业务定义,绝大部分的数据运维将以无代码(或低代码)的自动化方式运行。用户只需关注对数据的业务需求,而背后的数据导入、清洗、准备等工作将大部分由自动化代替。向人工 ETL 数据管道说再见!
业务数据服务 Business Data Service
基于业务语义的自助式数据服务,与传统数仓不同,智能数据云将数据使用门槛降至最低。数据消费者看到不再是数据的技术层面(如关系表、星形模型、英文的表名、列名等),而是指标、标签、多维分析模型等这些业务层面有意义的语义描述,让普通业务人员可以自助式的使用。当然,智能数据云也提供以关系模型为基础的 SQL 数据服务,供数据专家使用。
数据探索和创新 Exploration & Orchestrating
从已知到未知,基于业务语义层,数据专家可以自由地在企业的数据海洋里畅游,自助式地探索每个数据集,联接来自不同主题的业务对象,研究新的数据规律,发现或创造新的有价值的业务数据。整个过程依托在业务语义层之上,技术层面的数据操作均由自动化完成,不再依赖数据工程师的协助。
AI 增强的系统优化 AI Augmented Optimization
AI 增强的能力不仅是数据运维的自动化,更体现在智能数据云系统的每一个角落。系统可以依据数据的更新和查询规律,自动优化底层存储策略,比如从 Connect 转向 Collect,自动添加合适的索引,优化整体性能和成本,也可以根据用户群体使用数据的习惯,向业务人员推荐最有价值、最值得关注的新数据。
通过降低数据的使用门槛、赋能普通业务人员,智能数据云将极大改变企业使用数据的习惯,带来巨大收益:
数据使用率提升,数据 - 价值转化效率提升
数据是石油,但如果不被使用,数据就只是负债,而非资产。同时数据又可以反复使用,使用越多价值越高。智能数据云让每个业务人员都能使用数据,让数据优化每一个工作岗位成为可能。从仅有十几个数据专家,到有成千上万个平民数据分析师,数据的价值能成百倍的在企业中释放。
赋能业务专家,加速数据创新,快速试错
IDC 预测,未来两年企业数据将以每年 42.2% 的速度增长。但在可用的企业数据中,仅 32% 被投入使用,剩余的 68% 并未得到利用。这是因为能发现新的数据应用场景的、既懂技术、又懂业务的顶尖人才太少了,数据在业务线的推广远远不够。智能数据云的业务语义层,为业务专家们屏蔽了数据的技术细节,让一线的业务尖兵可以独立完成数据的探索和创新,降低了创新的试错成本,能大幅加速新的数据场景的开发速度。只有高速创新,才能持续领跑行业的数字化赛道。
打通业务和技术的统一数据治理
数据治理大家都在说,但在执行层面常常遇到难点。因为数据监管的要求一般在业务层面提出,比如所有的用户识别信息(PII)不得明文展现,而执行落地则在技术层面。如何确保从业务要求到技术执行的翻译过程严谨可信、没有遗漏,一直以来都给企业带来了很大困扰。智能数据云的业务语义层打通了业务元数据和技术元数据,用 AI 增强和自动化的方式解决了这个问题。
统一透明的指标口径,上下高度对齐,力出一孔
智能数据云将业务数据对象集中管理,在其上很容易建立一套统一、透明的指标体系。今天很多企业还受困于传统的管理问题,比如上下如何高度对齐、力出一孔;考察部门与被考察部门对 KPI 口径的理解不一致;管理层、中层、基层对同一个业务目标在不同组织层级上的计算方法不透明、不统一。利用智能数据云的业务数据对象管理能力,这些问题都能容易得到解决。
自动推荐业务数据模型,自动发现最有价值的数据
企业数字化过程中还有一个常见问题,就是很难识别一份数据资产的价值,因而也就无法进一步优化数据资产。智能数据云通过暴露业务数据服务,可以容易地发现使用频度最高、或者管理层最关注的业务数据和指标,进而指导数据资产优化。AI 增强算法还能根据用户群体的使用习惯,自动发现和推荐新的业务数据模型,比如从上万条 SQL 中,发现最有价值的表关联、维度和度量的组合,辅助企业从技术数据资产中提炼出业务数据资产。
用自动化实现无代码 ETL
现今很多企业的大数据部门中,80% 都是数据工程师,而他们的主要工作就是维护成百上千的 ETL 数据管道。这些数据管道有其存在的必要性,它们连通了一个数据实体到另一个数据实体,实现了其间的数据流动和改造。智能数据云通过对业务元数据和技术元数据的穿透管理,可以根据业务定义自动化大部分的 ETL 工作。业务人员只需描述一个业务指标的计算方式,系统就能自动生成代码,完成所需的 ETL 工作。
数据系统的自动降本增速
当分析师角色拓展到普通业务人员,数据服务的并发用户数量也将成百倍的上升。这对于数据库系统而言,无论是并发性能,还是所需的硬件资源成本,都将带来极大的挑战。即便云上资源无限伸缩,简单粗暴的扩容资源,在成本角度也是无法接受的。智能数据云的 AI 增强系统优化能力,可以自动识别高频数据,并针对访问特性进行动态性能优化。例如调用云上额外资源,对热点数据进行充分预计算,添加适合的点查询索引,并将索引移动到靠近计算集群的内存数据库中缓存,通过一系列措施能成百倍的降低单查询成本,并在同时保持超高速的查询响应性能。
技术的发展会随着时代不断迭代和进化,数据仓库也是如此。未来人类使用数据的习惯一定会被创新性技术和服务模式所改变。今天,云计算能够非常快速、低成本、弹性灵活地支撑业务发展。未来,企业使用数据也该如此,无需再关心数据在哪一个平台或者数据源里,只需要关心订单数据资产、实时库存数据模型和增长等业务指标。只需打开电脑,数据就能随取随用,随时随地。
智能数据云,将改变人类使用数据的习惯, 让使用数据变得更加简单, 让最有价值的数据被看见!
关于 Kyligence
Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。基于机器学习和 AI 技术,Kyligence 从多云的数据存储中识别和管理最有价值数据,并提供高性能、高并发的数据服务以支撑各种数据分析与应用,同时不断降低 TCO。Kyligence 已服务中国、美国及亚太的多个银行、保险、制造、零售等客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。公司已通过 ISO9001,ISO27001 及 SOC2 Type1 等各项认证及审计,并在全球范围内拥有众多生态合作伙伴。
当订单与销售明细在不同的事实表,千笔订单商品数量如何计算?Kyligence Cloud + Kyligence MDX 三步实现跨事实表分析,带你利用数据更准确地洞察经营状态,如对比不同门店的同期销售状况!
近些年,中国持续不断地从国家战略和政策上鼓励大数据产业的发展,推动各行业积极开展和实施数字化转型战略。《“十四
数据分析日益增长的多样化需求 信息化时代之初,由于大部分员工缺乏大数据相关的技能和培训,分析和解释数据的话语权
1. Hadoop 知多少 对于大数据玩家而言,Hadoop 绝不陌生。Apache Hadoop 作为一个完
对于金融行业来说,高效使用数据就像电力一样,已经成为数字化转型的“新基建”。各大金融中心都在持续增加人才和资金
前言 大家都知道,数据分析项目从需求提出到最终交付要经历一个漫长的过程,需要进行数据源整合、指标定义、模型开发
本文译自:The Citizen Data Analyst: The Pivotal Element in A
近日,Kyligence 联合创始人兼 CTO 李扬出席“亚马逊云科技 INNOVATE| 数据驱动创新大会”
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持