Kyligence 2024 数智论坛暨春季发布会:以 AI 构建数智竞争力 即刻报名

演讲实录 | Kyligence CEO韩卿:构建融合智能的大数据仓库

韩卿
2018年 7月 06日

「如果数据仓库领域没有革新性的变化的话,人力是不会被解放出来的,那这个行业也不会发生根本性的改变。」

本文由Kyligence CEO 韩卿(Luke Han)在Kyligence B轮融资暨新产品发布会上的演讲内容整理而来,共 4004 字,阅读大概需要 12 分钟。

非常感谢大家来参加今天的发布会,Kyligence这两年的快速发展离不开在座的各位投资人、客户、合作伙伴和媒体朋友的大力支持和携手并进,在今天这个特殊的日子里,很荣幸和大家一起见证Kyligence的B轮融资和新产品发布。接下来,我主要向大家介绍一下我们融合、智能、开放的大数据分析平台 Kyligence Enterprise v3.0,以及Kyligence产品设计的方法论。

1、融合智能开发的大数据分析平台
1.1 数据仓库进化史

我们知道,数据仓库的发展已经大概超过三十年了,最早的时候我们叫它数据集市,它和应用系统是分开的,所以用户做分析做工程时,基本上是从每块业务数据那里直接把数据过来进行分析就行了。这样操作的问题在于,要把这么多不同的业务数据整合到一起是一个巨大的挑战。

所以在1990年前后,数据仓库技术理论被提出,这个理论认为我们应该把各个分散的业务数据整合起来,构建一个统一的数据仓库,为企业分析和应用分析提供一个统一的平台,企业能够在这个平台上构建整个分析应用。

这样的一个技术,在今天已经变成了绝大部分行业客户里的基础技术,像金融、运营商、零售等行业的业务分析都已经构建在这样的基础技术之上了。

举个例子,在银行里你要进行各种各样的分析,尤其是各种风控分析,都需要建立在对不同业务模块数据的统一分析之上。

2006年左右开始,数据仓库领域出现了一个新的挑战——各大企业的数据体量变得越来越大,在存储的成本和性能上,原有的数据仓库技术已经不能满足企业快速增长的业务需求。

随着大数据的出现,数据仓库慢慢演化成了数据湖的概念。

这两年,云计算蓬勃发展,于是各个领域的企业都纷纷开始上云,由此很多的数据不断地大量涌现,如果要在云上建一个分析仓库,对于企业的挑战,不仅在于这么多的分公司拥有极大的数据体量,而且需要进行跨地域的数据整合,感觉又回到了2006年面临的数仓挑战。

1.2 下一代的数据仓库是什么样子?

解答这个问题前,我们先回到另外一个话题,那就是企业构建传统数据仓库通常会遇到的问题和挑战。

传统数据仓库大量的构建模式是基于以往的理论基础之上开始ETL,即数据进来之后我要聚合、我要转换、我要到哪个地方去,甚至需要对不同来源的数据进行分析。

通过漫长数据转换过程之后,把转换后的数据放到数据仓库里,最后基于这样的仓库,企业还要建非常多的分析模型、报表、预测,通常这样的项目往往要耗费大量人力和时间,花费好几个月,甚至用年来计算。

我相信,来自银行业的同事们深有感触,构建项目的人力、时间、金钱的成本都非常高,而且耗费大量的人力去做重复性的工作。

于是,业界推出了依靠更加专业的数据科学家的方式去解决,但其实本质上还是在依赖大量的人工进行工作,如果没有革新性的变化的话,人力是不会被解放出来的,那这个行业也不会发生根本性的改变。

在前两年有一篇分析报告,他们认为AI分析是未来,这是我为大家介绍的第一个概念,未来数据的方向,一定是基于智能化以及自动化。人的能力是用来做决策的,而不是用来每天做重复性劳动工作的。我相信这里有非常多的朋友在过去工作中有大量的时间做重复性的工作,这些重复性的工作应该交给我们的机器去做,机器是最擅长从这种重复性的工作里认知它的模式,去进行这样的自动化处理。

1.3 Kyligence Enterprise v3.0:融合数据仓库架构

我今天给大家介绍的我们的最新产品Kyligence Enterprise v3.0,是我们带来的融合、智能的大数据分析平台,我们希望个平台能为整个行业带来变革。

Kyligence Enterprise v3.0会解决传统数据仓库与大数据的融合难题,通过它,我们的业务用户、分析用户不需要再知道所有的EDW或Data Lake在什么地方,他只需要和我们的Kyligence Enterprise打交道就行。同样的平台,我们支持历史数据和实时数据的融合,可以更快地支企业撑整个业务的发展。

同样,我们还可以支撑本地与云计算的融合,在同一个企业之下,你可以解决本地数据与云端数据的整合问题,这就是我们今天带来的第一个话题“融合”。

1.4 Kyligence Enterprise v3.0:智能数据仓库架构

我相信各位进行网购时,都会遇到一个有意思的事情,就是系统会根据你以往的购买记录猜测你对什么东西感兴趣,然后经常给你推荐一些产品。通过大量技术,分析基于你的历史购买记录、点击记录,它能大概率猜出你喜欢什么。同样的技术,为什么不能应用在数据仓库的应用呢?

对于大型企业来说,分析师的分析都可以记录下来,历史的分析行为都可以得到,而且是有大量数据可以得到。既然如此,我们为什么不能像网购网站猜你喜欢什么东西一样,通过智能化的手段来加速大数据分析,降低原来大大需要人工的工作,这就是我们今天讲的第二个话题“智能”。

我们通过机器学习找到你的历史记录,通过智能化的方式去查询、建模,让你从传统的数据仓库里直接把数据进行快速地迁移来解决问题,这样的分析效率更高,可以有效地提高整个业务的需求。

最重要的是,这样可以将企业的人力节省出来做更有价值的工作,因为很多时候,企业有大量的重复工作需要人力去学习如何处理,但一天到晚清理数据对企业而言是低效、耗时又耗力的工作,而这部分工作恰恰是非常适合基于AI去完成。

1.5 为什么重复的工作适合AI做?

具体可以看一下我们的架构。

在新版Kyligence Enterprise上,通过对分析师行为的理解,以及数据本身的情况,我们的引擎可以非常好地识别企业的分析模式。在识别了分析模式后,我们有相应的自动建模功能,自动化帮你建模和储存,帮助企业在经济与成本之间取得一个最佳平衡,最终做到使用一个智能的、统一的分析平台满足用户从聚合性查询到实时性的查询需求,从数据的分析到数据挖掘服务。

所以,我们讲的下一代数据仓库,一定是融合的、智能的数据仓库,通过将这些技术应用到数据仓库本身的技术变革中,为各个产业带来变革。

你可以看到,Kyligence Enterprise可以对接各种各样的分析应用,同时我们也可以整合传统的数据仓库,我们的分析平台拥有自主的高性能的存储引擎,这个引擎同样支持全面的自动化。我们也有全面升级的并行查询引擎,可以将上亿规模级别的明细数据快速地应用到查询平台上。

另外,整个的智能化建模在Kyligence Enterprise上做得非常多,通常你只要提供一个分析的历史记录,我们的背后引擎就会基于这样的历史记录,自动化地去分析和推荐合适的模。以前各种各样的靠人工,靠专家支持的调优,现在可以基于机器的自动化学习和匹配做到。

今天,我们看到新版的Kyligence Enterprise有更大的性能提升和更低的空间存储,这些都是极大的突破。

1.6 Kyligence Cloud v2.0:助力企业平滑上云

另外,我非常高兴地告诉大家,基于Kyligence Cloud v2.0的产品已经可以在整个云平台上使用。

在云平台上除了可以使用刚才提到的特性,依托于云计算本身的特性,Kyligence Cloud v2.0还提供了一键部署、自动伸缩等性能,使得我们的客户可以将他的分析应用平滑上云,而整个的这个过程,你的业务分析人员就可以直接操作。这对于企业而言非常非常重要,它可以快速地反馈你的业务变化。

整个云平台,我们可以看到核心还是我们Kyligence Cloud,我们可以将云上的数据存储,甚至是云上的数据处理都提供一键化的部署,同时,在整个前端的分析应用的过程中,我们的用户不需要写一行代码,你不需要让你的分析师了解代码,他只需要知道什么是分析、什么是报表,他依然可以沿用他熟悉的电子表格等方式去进行分析。

给大家看一下核心功能,弹性伸缩。在云上资源相对来说非常的贵,我们可以支撑到今天的特性是在数据洪峰过来之前,我们可以进行自动扩容,处理完成后又可以把它关掉,这样可以节省大量无效的占用。

今天,Kyligence Cloud在三大公有云的平台上,可以做到30分钟完成全球部署,这对于我们中国企业出海非常重要。我们最近已经有好几个客户,他们在做国际化的过程中,受限于各种各样的原因,以及他们在海外的业务增长,大量的数据没有办法在国内进行分析,这时候,一套本地和云上统一的分析服务极其重要。

2、方法论
2.1 好的产品必须依据于好的方法论

方法论在整个的行业里是极其重要的,这在过去的几十年里面是经久不衰的方式。一个好的产品,必须依据于好的方法论,依托于相应的专业服务,才能真正地产生价值。

今天我给大家介绍一下Kyligence的融合数据仓库方法论,我们整个方法论里会从你的自动化、智能化等方面会带来方法论层面的指导。

第一个是敏捷,今天,一个敏捷的方式方法是支撑整个数据变化最重要的方式。

第二是扩展性,如何在整个的数据构建过程中提供扩展的能力,需要提前在设计过程中设计好。

第三个是治理,数据的治理是一个数据项目成功的基础基石,数据治理关注如何将数据价值以及行业的最佳实践运用成功。

第四个是自动化,我们通过这样的方法论,我们会去赋能我们的合作伙伴和客户,为他们的数据分析过程以及项目带来更好的提升。

2.2 开放的技术架构

纵观整个过去软件行业发展的历史,只有开放的技术架构,才能取得成功。

首先,开源是第一位,Apache Kylin是来自中国的第一个国际顶级开源项目,我们会大力地投入Apache Kylin社区,我们的Kylin技术会有更强的分析能力、更多的存储模式,我们会在更多方面提供支持。下一步,我们会持续大量地投入社区,在这样开源、开放的过程中,我们在未来一年里还将会有大量新的产品出现,带来更强的分析能力。

第二,我们已经将我们的产品打造成了一个开放的平台,今天我们已经实现了多种可接入的数据源,这些数据源可以直接对接我们的大数据平台,未来,我们还会和合作伙伴加强这方面的交流,帮助我们扩展我们的数据源。

另外,数据进来后,基于大的业务应用场景,我们提供了一个支持扩展的可视化功能,例如我们近期将提供一个基于Superset的SDK,这会解决Superset与我们产品后台的兼容性问题。所以,不管是业务审核问题还是业务的定制化问题,我们都将全面开放我们的合作伙伴生态体系。

2.3 开放的合作伙伴生态

说到合作伙伴,一个开放的生态系统是非常重要的,我们得益于来自合作伙伴的支持,使得我们今天能得到很好的成绩。目前,我们已经开启了合作伙伴认证的计划,发展了大量非常优质的合作伙伴,同时,我们也将开启全球合作伙伴招募计划,在这个过程中,我们希望可以将Kyligence的产品、技术以及方法论等赋能我们的合作伙伴,与我们一起创造更好的价值。

感谢大家,总结一下我们的新产品,就是融合、智能、开放,更具体的产品信息,各位线下可以与我们相关人员交流,谢谢。

点此获取演讲PPT

添加企微

kyligence
关注我们

kyligence