Apache Kylin v2.x最新特性分享

Kyligence
2017年 7月 28日

Apache Kylin Committer & PMC Member、Kyligence高级架构师李栋,在7月15日的Strata Data Conference(下称Strata峰会)北京站发表了《Apache Kylin v2.x:从Hadoop上的OLAP引擎到数据仓库》的专题演讲。

李栋在Strata峰会发表演讲

Strata峰会是全球公认的世界最顶级的大数据会议,被《福布斯》杂志誉为“大数据运动的里程碑”。峰会上,李栋介绍了Apache Kylin新一代v2.x版本的最新特性,例如即将在v2.1版本发布的查询下压(Query Pushdown),以及在v2.0版本已经全面支持的雪花模型、Spark构建引擎等。这些特性使Apache Kylin可以支持更加复杂的数据模型和灵活的业务场景,推动Apache Kylin从Hadoop上的OLAP分析引擎到数据仓库的演变。以下是李栋演讲的部分PPT实录:

通过展示Apache Kylin的架构图与性能测试图,李栋为大家阐释了Kylin是什么。

对比数据显示,作为SQL on Hadoop的OLAP分析引擎,Apache Kylin的响应速度远比其它引擎快,关于这一点,从Kylin遍布全球的200多名用户中就可以得到验证。

Kylin采用“空间换时间”的思路,通过预计算构建Cube以实现秒级甚至亚秒级的查询性能。

不过,在Apache Kylin v1.x的时代,Apache Kylin只支持预先定义的SQL查询,当Cube不能满足查询时则查询失败。

在即将发布的v2.1版本中,Kylin将通过查询下压(Query Pushdown)功能解决以上难题。

此外,Apache Kylin从v2.0版本开始就已全面支持雪花模型。

一项基于TPC-H进行的基准测试显示,Apache Kylin对所有查询均能成功执行,并且明显体现了预计算的查询优势。

同时,Apache Kylin v2.0版本所支持的Spark 构建引擎大幅度提升了Cube预计算过程的效率。

作为领先的大数据OLAP分析引擎,现在的Apache Kylin羽翼更丰:查询下压支持用户进行更加灵活的业务分析,给Apache Kylin带来了从MOLAP到HOLAP的转变;加上对复杂数据模型的支持和Spark构建引擎的引入,Apache Kylin正逐渐从一个Hadoop上的传统OLAP平台向数据仓库演变。在这个数据规模日益激增的时代,Apache Kylin始终专注于尽量使用离线预计算替代在线计算,用最小的成本带来最快的数据分析体验。

申请试用
关注我们