Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
数据网格(Data Mesh)是由 Thoughtworks 提出的一种数据域驱动的分析架构,其中数据被视为一种产品,由最了解并且消费这些数据的团队来负责管理。本次我们转载了 Eric Broda 发表在 Medium.com 的博客,文章从数据网格的架构、场景、方案等多方面展开了阐述,希望能帮助大家进一步了解数据网格。
大家都说数据是新黄金,但近年来,各种对数据价值挖掘的尝试不少都以失败告终。我们尝试过数据仓库,但企业间数据不一致的情况使其最终成为一片数据丛林。之后,我们又试过"数据湖",但因为数据陈旧的问题,它很快也沦为数据沼泽!
因此,人们难免对数据网格持怀疑态度。数据网格究竟是又一次的昙花一现,还是真的能带来持久的实用价值呢?这个问题尚无定论。我曾在一家大型金融服务公司负责过现代数据网格的建立,从这段经历来看,数据网格是实用且可行的,更重要的是,它能极大加速解决方案的交付。很多文章都曾讨论过数据网格为什么能改变企业的数据版图,比如《数据网格架构模式》[1] 以及如何从庞大的数据湖迁移到分布式的数据网格[2],但既然我是数据网格的忠实拥护者,这里不妨再介绍下如何构建数据网格。本文将讨论以下几个主题:
在企业数据版图中,随处可见各种新兴数据技术的残骸。企业通过"数据仓库"保存分析数据,但这并不能解决数据一致性的问题。很快,我们会发现在数仓都是一两天前的旧数据,造成分析数据陈旧问题变得很严重,数据仓库最终变为了数据丛林。
因此,人们又把数仓合并到"数据湖"中,但也发现很难在数据湖中进行数据检索或保持数据的一致性,因此很多用户,也包括公司高管在内,开始质疑数据的有用性。数据湖最终成为一片数据沼泽。
可以说,数据在企业中的移动方式(图1)已经成为企业面临的一大挑战。
简而言之,目前的做法,特别是企业内数据的移动做法,导致了当前的数据乱象。
数据网格是多个部件的组合
历史遗留的数据乱象不会很快消失,但从我的一手经验来看,"数据网格"能在很大程度上简化企业的数据版图,并为准确且一致的数据产出提供基础。根据数据网格概念的最初提出者 Zhamak Dehghani 的观点,数据网格应遵循几大原则[3]:
目前,还没有哪家供应商的单个产品能集中体现所有这些原则。相信随着时间的推移,供应商最终将能提供真正的数据网格,不过今天,我们还是只能通过不同的组件来组成数据网格,今天的数据网格更像是由多个乐高积木搭成的飞船(图2)。
那么,这些积木是什么,长什么样,怎么用它们组成数据网格呢?
数据网格架构由几个关键部分组成:数据产品,以及将这些数据产品组合在一起并使其能在企业内访问的数据网格。
让我们先从数据产品开始。基于前面提到的数据网格原则,企业内会有很多数据产品,但每个产品都应由相同的组件构成:
AI/ML 模型的质量取决于训练用的数据。因此要尽量确保模型训练数据是准确、一致的。那么如何在运营和分析(或交互)系统/数据库之间实现数据的及时同步呢?
上图展示了如何通过数据网格解决这个问题:
企业对模型的可复现性、可追溯性和可验证性的需求,迫使组织重新审视[6]传统的 AI/ML 交付生命周期。这一点在金融服务业尤其重要,因为监管机构对模型的可复现性、可追溯性和可验证性有明确要求(参见欧盟[7]、美国[8]和加拿大[9]具体规定)。目前在医疗保健、生物技术或政府安全等行业,也存在类似的要求;但即使其他一些监管相对宽松的行业,也已经认识到了这种做法能给企业的增益将远超其成本。
那如何解决可复现性、可追溯性和可验证性问题?企业一般采用两种方案。部分企业使用端到端的分析方案(如 SAS),将这些能力嵌入其生命周期中,但此时,企业只能选择特定供应商的产品,所以该方案不适用于希望充分利用强大的开源 AI/ML 组件的企业。
第二种方案是企业通过定制化组件建立数据血缘,从而满足可复现性、可追溯性和可验证性的要求。但这种方法的实现成本高,开发耗时长,因此只针对最关键的 AI/ML 模型建立,这也限制了AI/ML 模型的使用和它所能带来的价值。
数据网格由企业数据产品目录提供支撑,并通过事件流骨干网进行连接。企业内会有许多数据产品,每个数据产品都围绕着企业相关业务线或团队而建立。通过数据变更捕获并将其作为事件发布在事件流骨干网上,订阅者(也就是应用或系统)能够得到他们所感兴趣的数据变化通知,从而实现数据产品之间的数据共享。
企业数据目录同样重要,它与数据产品目录同步(当然也是通过数据网格功能),以跟踪整个企业的数据要素(即驻留在每个数据产品中的数据)。企业数据目录凭借强大的搜索/查找功能,使我们能快捷方便地在整个企业中查找数据。
数据网格提供了便于数据产品连接的工具和机制:
简而言之,数据网格将简化数据产品在企业内部的共享和同步。大多数企业都拥有许多数据产品,其中部分可能反映业务域,如"零售银行业务"、"支付业务"、"商业银行业务",另一部分可能反映数据域,如"客户"、"账户"、"交易"。
从上图中可以看到数据如何在企业中移动和同步:
数据网格能在正确的时间提供正确的数据,使企业能够自由、快速且敏捷地在当今市场进行创新。数据网格能够实现真正的联合式数据访问、交付和管理模式,不受繁琐流程的限制,企业团队可以在任意时间以自动化方式消费其项目、小组或业务线所需的数据。旧的数据管理模型已然过时,数据网格的前景将会更加广阔。
Kyligence MDX 支持创建层级结构。层级结构是基于维度的级别集合,可以显著提升数据分析人员的分析能力。此外,Kyligence MDX 还支持对指定的层级指定权重,方便您自定义成员值的汇总方式。
当订单与销售明细在不同的事实表,千笔订单商品数量如何计算?Kyligence Cloud + Kyligence MDX 三步实现跨事实表分析,带你利用数据更准确地洞察经营状态,如对比不同门店的同期销售状况!
数据分析日益增长的多样化需求 信息化时代之初,由于大部分员工缺乏大数据相关的技能和培训,分析和解释数据的话语权
当前,云上部署正逐渐成为全球众多企业 IT 部署模式的新选择。而在国内,由于国家的监管需求,一些行业数据仍然被
1. Hadoop 知多少 对于大数据玩家而言,Hadoop 绝不陌生。Apache Hadoop 作为一个完
现代企业愈发需要利用海量数据的价值进行量化运营、辅助决策洞察,在线联机分析 OLAP(Online
Kylin 入选《上海市重点领域(金融类)“十四五”紧缺人才开发目录》 数字经济已成为全球增长新动
前言 大家都知道,数据分析项目从需求提出到最终交付要经历一个漫长的过程,需要进行数据源整合、指标定义、模型开发
本文译自:The Citizen Data Analyst: The Pivotal Element in A
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持