Kyligence 2024 数智论坛暨春季发布会:以 AI 构建数智竞争力 即刻报名

【用户案例】Apache Kylin 在今日头条的实践

2017年 4月 25日

2017 年 4 月 22 日,日活跃用户超过 7800 万的个性化推荐引擎产品 今日头条与首个来自中国的 Apache 软件基金会顶级项目 Apache Kylin 共同在北京举办了干货满满的 Meetup。无论是活动现场还是直播平台都人气爆棚!今日头条更是在活动中分享到,其目前在 Apache Kylin 的数据量规模达 3 万亿条, 查询速度维持在一秒以内,且支持了一些重要的分析场景

本文图文再现了今日头条杨朝中讲师带来的精彩分享。

讲师简介:

杨朝中在进行分享

图1(来自讲师PPT)

图 1 所示是今日头条目前面临的挑战。首先是数据规模。今日头条拥有的 Hive 表有 14000 张以上,Top 10 的表数列行数大概在 200 亿以上,最大的分区现在已经超过了 3000 亿,也就是说一天会产生 3000 亿条记录。其次是数据安全。因为如果所有员工都可以访问,甚至通过 CLI 操作这些表,意味着一张表可以被轻易删掉或者修改。另外,今日头条的模式主要以 Hiveserver2 为主,目前部署的 HiveServer2 的服务实例大概是 50 个以上。

图2(来自讲师PPT)

图 2 所示是头条目前引入的主要的开源项目。包括 Hive,Apache Spark,Presto,Apache Kylin,和 Apache Sentry。

图3(来自讲师PPT)

图 3 所示是今日头条的架构。

下面有 HMS、HDFS、YARN,Sentry,中间是包括 Apache Kylin 在内的查询引擎,上面是应用层,每天大概也有 3000 左右的查询。

接下来杨朝中介绍了为解决问题今日头条所做过的努力(如图4-13)。

图4(来自讲师PPT)

图5(来自讲师PPT)

图6(来自讲师PPT)

图7(来自讲师PPT)

图8(来自讲师PPT)

图9(来自讲师PPT)

图10(来自讲师PPT)

图11(来自讲师PPT)

图12(来自讲师PPT)

图13(来自讲师PPT)

今日头条在去年引入了 Apache Kylin,主要帮助其加速多维分析。今日头条目前在一些重要场景下基于 Hive 构建 Kylin 的 Cube。例如头条用户的阅读行为分析,大多数情况下 Cube 查询都能做到秒级或者亚秒级。

当然,今日头条也对 Apache Kylin 做了一些改进。例如 Cuboid Spanning 的算法,优化依赖聚合分组,还有Cube的构建。

图14(来自讲师PPT)

图 14 所示是今日头条目前在 Apache Kylin 的规模。上面已经有 2.4 万亿行,下面有 800 亿的数据规模。

图15(来自讲师PPT)

图 15 所示是今日头条在未来会做的工作。

今日头条目前在 Apache Kylin 的数据规模达 3 万亿条,查询速度维持在一秒以内,且支持了一些重要的分析场景。

关于Apache Kylin

Apache Kylin是首个完全由中国团队设计开发,并贡献到 Apache 软件基金会(ASF)的顶级项目。作为可扩展到 PB 规模的开源分布式大数据分析引擎,为 Apache Hadoop™ 等大型分布式数据平台之上的超大规模数据集提供标准 SQL 查询及多维分析(OLAP)能力,提供亚秒级的交互式分析能力。

开源一年左右的时间,已经在国内国际多个公司被采用作为大数据分析平台的关键组成部分,包括eBay、Expedia、Exponential、百度、京东、美团、明略数据、网易、中国移动、唯品会等。

关于Kyligence

Kyligence 是由 Apache Kylin(唯一来自中国的Apache软件基金会顶级项目)核心团队组建,专注于大数据分析领域创新的数据科技公司。公司致力于进一步推动 Apache Kylin 开源项目的发展和演进,拓展全球用户社区;提供基于 Apache Kylin 的下一代企业级数据仓库及商务智能大数据分析平台和解决方案,使用户能够在超大规模数据集上获得极速的洞察能力,以释放数据价值,驱动业务增长。

“Apache and Apache Kylin are either registered trademarks or trademarks of The Apache Software Foundation in the US and/or other countries. No endorsement by The Apache Software Foundation is implied by the use of these marks.”
特别鸣谢 —— IT 大咖说提供现场速记。

添加企微

kyligence
关注我们

kyligence