产品能力
根据平台
服务
部署方式
场景
BI
行业
客户总览
金融
零售
互联网
客户支持
培训
资源
下载
关于
合作伙伴
数据网格(Data Mesh)是由 Thoughtworks 提出的一种数据域驱动的分析架构,其中数据被视为一种产品,由最了解并且消费这些数据的团队来负责管理。本次我们转载了 Eric Broda 发表在 Medium.com 的博客,文章从数据网格的架构、场景、方案等多方面展开了阐述,希望能帮助大家进一步了解数据网格。
大家都说数据是新黄金,但近年来,各种对数据价值挖掘的尝试不少都以失败告终。我们尝试过数据仓库,但企业间数据不一致的情况使其最终成为一片数据丛林。之后,我们又试过"数据湖",但因为数据陈旧的问题,它很快也沦为数据沼泽!
因此,人们难免对数据网格持怀疑态度。数据网格究竟是又一次的昙花一现,还是真的能带来持久的实用价值呢?这个问题尚无定论。我曾在一家大型金融服务公司负责过现代数据网格的建立,从这段经历来看,数据网格是实用且可行的,更重要的是,它能极大加速解决方案的交付。很多文章都曾讨论过数据网格为什么能改变企业的数据版图,比如《数据网格架构模式》[1] 以及如何从庞大的数据湖迁移到分布式的数据网格[2],但既然我是数据网格的忠实拥护者,这里不妨再介绍下如何构建数据网格。本文将讨论以下几个主题:
在企业数据版图中,随处可见各种新兴数据技术的残骸。企业通过"数据仓库"保存分析数据,但这并不能解决数据一致性的问题。很快,我们会发现在数仓都是一两天前的旧数据,造成分析数据陈旧问题变得很严重,数据仓库最终变为了数据丛林。
因此,人们又把数仓合并到"数据湖"中,但也发现很难在数据湖中进行数据检索或保持数据的一致性,因此很多用户,也包括公司高管在内,开始质疑数据的有用性。数据湖最终成为一片数据沼泽。
可以说,数据在企业中的移动方式(图1)已经成为企业面临的一大挑战。
简而言之,目前的做法,特别是企业内数据的移动做法,导致了当前的数据乱象。
数据网格是多个部件的组合
历史遗留的数据乱象不会很快消失,但从我的一手经验来看,"数据网格"能在很大程度上简化企业的数据版图,并为准确且一致的数据产出提供基础。根据数据网格概念的最初提出者 Zhamak Dehghani 的观点,数据网格应遵循几大原则[3]:
目前,还没有哪家供应商的单个产品能集中体现所有这些原则。相信随着时间的推移,供应商最终将能提供真正的数据网格,不过今天,我们还是只能通过不同的组件来组成数据网格,今天的数据网格更像是由多个乐高积木搭成的飞船(图2)。
那么,这些积木是什么,长什么样,怎么用它们组成数据网格呢?
数据网格架构由几个关键部分组成:数据产品,以及将这些数据产品组合在一起并使其能在企业内访问的数据网格。
让我们先从数据产品开始。基于前面提到的数据网格原则,企业内会有很多数据产品,但每个产品都应由相同的组件构成:
AI/ML 模型的质量取决于训练用的数据。因此要尽量确保模型训练数据是准确、一致的。那么如何在运营和分析(或交互)系统/数据库之间实现数据的及时同步呢?
上图展示了如何通过数据网格解决这个问题:
企业对模型的可复现性、可追溯性和可验证性的需求,迫使组织重新审视[6]传统的 AI/ML 交付生命周期。这一点在金融服务业尤其重要,因为监管机构对模型的可复现性、可追溯性和可验证性有明确要求(参见欧盟[7]、美国[8]和加拿大[9]具体规定)。目前在医疗保健、生物技术或政府安全等行业,也存在类似的要求;但即使其他一些监管相对宽松的行业,也已经认识到了这种做法能给企业的增益将远超其成本。
那如何解决可复现性、可追溯性和可验证性问题?企业一般采用两种方案。部分企业使用端到端的分析方案(如 SAS),将这些能力嵌入其生命周期中,但此时,企业只能选择特定供应商的产品,所以该方案不适用于希望充分利用强大的开源 AI/ML 组件的企业。
第二种方案是企业通过定制化组件建立数据血缘,从而满足可复现性、可追溯性和可验证性的要求。但这种方法的实现成本高,开发耗时长,因此只针对最关键的 AI/ML 模型建立,这也限制了AI/ML 模型的使用和它所能带来的价值。
数据网格由企业数据产品目录提供支撑,并通过事件流骨干网进行连接。企业内会有许多数据产品,每个数据产品都围绕着企业相关业务线或团队而建立。通过数据变更捕获并将其作为事件发布在事件流骨干网上,订阅者(也就是应用或系统)能够得到他们所感兴趣的数据变化通知,从而实现数据产品之间的数据共享。
企业数据目录同样重要,它与数据产品目录同步(当然也是通过数据网格功能),以跟踪整个企业的数据要素(即驻留在每个数据产品中的数据)。企业数据目录凭借强大的搜索/查找功能,使我们能快捷方便地在整个企业中查找数据。
数据网格提供了便于数据产品连接的工具和机制:
简而言之,数据网格将简化数据产品在企业内部的共享和同步。大多数企业都拥有许多数据产品,其中部分可能反映业务域,如"零售银行业务"、"支付业务"、"商业银行业务",另一部分可能反映数据域,如"客户"、"账户"、"交易"。
从上图中可以看到数据如何在企业中移动和同步:
数据网格能在正确的时间提供正确的数据,使企业能够自由、快速且敏捷地在当今市场进行创新。数据网格能够实现真正的联合式数据访问、交付和管理模式,不受繁琐流程的限制,企业团队可以在任意时间以自动化方式消费其项目、小组或业务线所需的数据。旧的数据管理模型已然过时,数据网格的前景将会更加广阔。
当订单与销售明细在不同的事实表,千笔订单商品数量如何计算?Kyligence Cloud + Kyligence MDX 三步实现跨事实表分析,带你利用数据更准确地洞察经营状态,如对比不同门店的同期销售状况!
数据分析日益增长的多样化需求 信息化时代之初,由于大部分员工缺乏大数据相关的技能和培训,分析和解释数据的话语权
当前,云上部署正逐渐成为全球众多企业 IT 部署模式的新选择。而在国内,由于国家的监管需求,一些行业数据仍然被
1. Hadoop 知多少 对于大数据玩家而言,Hadoop 绝不陌生。Apache Hadoop 作为一个完
现代企业愈发需要利用海量数据的价值进行量化运营、辅助决策洞察,在线联机分析 OLAP(Online
Kylin 入选《上海市重点领域(金融类)“十四五”紧缺人才开发目录》 数字经济已成为全球增长新动
前言 大家都知道,数据分析项目从需求提出到最终交付要经历一个漫长的过程,需要进行数据源整合、指标定义、模型开发
本文译自:The Citizen Data Analyst: The Pivotal Element in A
近日,Kyligence 联合创始人兼 CTO 李扬出席“亚马逊云科技 INNOVATE| 数据驱动创新大会”
已有账号? 点此登陆