博客 > 技术博客

【案例分享】Apache Kylin在搜狐大数据中心的应用

王华

2017年 1月 12日

Apache Kylin 是首个完全由中国团队设计开发，并贡献到 Apache 软件基金会 (ASF) 的顶级项目，开源一年左右的时间，已经在国内国际被多个公司采用作为大数据分析平台的关键组成部分，拥有大量用户案例。

来自搜狐大数据中心的工程师王华近日在搜狐内部会议中分享了 Apache Kylin 的简介及其在搜狐的应用。

感谢王华授权转载。

分享人：王华

搜狐大数据中心-数据架构组开发工程师，主要负责搜狐广告日志的分析、处理、灵活查询，负责cube系统的构建、维护及优化，经历了从传统Oracle、Saiku-mondria、Biee系统到Kylin-Tableau系统的迭代及探索。

搜狐大数据中心是首批采用 Apache Kylin 的公司之一，选择 Apache Kylin 作为数据分析引擎的主要原因如下：

速度快，支持更大规模数据处理。之前大数据中心一直采用Oracle、mysql、Hive等数据分析工具，随着数据量的膨胀，Oracle、mysql等传统数据库工具处理海量数据出现了很大的问题，用户普遍反馈查询缓慢；采用Hive等大数据分析工具可以满足海量数据的要求，但是在交互式查询方面表现太差。而Kylin采用了空间换时间的概念，可以同时支持快速、大规模的灵活查询。
完成统一。由于历史原因，之前大数据中心有两套系统，分别为Saiku-mondrian作为前端的cube系统和Biee作为前端的报表系统。维护，开发成本都比较高。而采用Kylin-Tableau的架构之后，系统拥有了更好的可维护性、可用性。

本次分享中，王华主要介绍了大数据分析引擎Apache Kylin的概念及应用，包括Apache Kylin的基本原理、Cube构建及查询过程、Cube优化、可能遇到的问题及Apache Kylin在大数据中心的应用。

以下是搜狐大数据中心王华演讲的PPT：