博客 > 技术博客

又想 Cube 小，又想 Cube 跑得好？

周天鹏

丁香园大数据运维工程师

2019年 9月 12日

“随着维度数目的增加，Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力，Apache Kylin 引入了一系列的高级设置，帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组（Aggregation Group）、联合维度（Joint Dimension）、层级维度（Hierachy Dimension）和必要维度（Mandatory Dimension）等。”

正如上述官方文档提到的，在维度过多时，合理地使用聚合组能解决 Cube 膨胀率过大的问题。听起来那么美好，但是，不合理的聚合组设置将对性能产生灾难性影响。

剪枝原理

Apache Kylin 的主要工作就是为源数据构建 N 个维度的 Cube，实现聚合的预计算。从理论上说，构建 N 个维度的 Cube 就会生成 2^N 个 Cuboid。

所以，只要降低最终 Cuboid 的数量，就可以减小膨胀率，达到对 Cube 剪枝的效果。

构建一个 4 个维度（A，B，C, D）的 Cube，就需要生成 16 个Cuboid。

那么问题来了，如果这 4 个维度（A，B，C, D），能够根据某业务逻辑找出一个隐藏的规律，即：当进行聚合时，用户仅仅关注维度 AB 组合和维度 CD 组合（即只会通过维度 A 和 B 或者 C 和 D 进行聚合，而不会通过 A 和 C、B 和 C、A 和 D、B 和 D 进行聚合），那么就可以通过设置聚合组，使生成的 Cuboid 数目从 16 个缩减成 8 个（大大降低 Cube 膨胀率），如下图所示。

上面这段内容来自 Kylin 公众号的【技术帖】Apache Kylin 高级设置：聚合组（Aggregation Group）原理解析这篇文章中，值得对聚合组还不太了解的同学读一读。

但是，这里好像完全没有提到用于过滤数据（而不是聚合）的维度字段，应该怎么处理？

问题产生

某年某月某日，某业务人员突然发现某张报表的打开速度极其缓慢，并上报给系统管理人员。随后，通过对该报表产生的 SQL 进行筛查，发现了如下一条嫌疑重大的 SQL 语句，拖慢了整个报表的打开速度。

select "A","B",sum("VALUE")
from test_agg_group
where "D" = 1
group by 1,2;

Kylin 日志信息：


==========================[QUERY]===============================
Query Id: 7fe300c2-211c-9429-eebf-b4cc57bfd679
SQL: select "A","B",sum("VALUE")
from test_agg_group
where "D" = 1
group by 1,2;
User: ADMIN
Success: true
Duration: 4.891
Project: 0000_reserved
Realization Names: [CUBE[name=test_agg_group]]
Cuboid Ids: [15]
Total scan count: 1000000
Total scan bytes: 51000000
Result row count: 100000
Accept Partial: true
Is Partial Result: false
Hit Exception Cache: false
Storage cache used: false
Is Query Push-Down: false
Is Prepare: false
Trace URL: null
Message: null
==========================[QUERY]===============================

因为这是在测试环境（数据量不大）执行的 SQL，所以执行时间为 4.891 秒，生产环境真实的 SQL 执行时间已超过 40 秒，Total scan count 为千万级。但是问题出现的原理和线上是一样的。

问题定位

对于这种极慢的 SQL，我通常会观察日志信息中的 Total scan count 与 Result row count 数值差异是否巨大。

如果差异极大（例如上述 SQL 的差异已经达到 10 倍），那就意味着该条 SQL 扫描了很多不会被作为最终结果的无用数据。

此时我发现只要删掉那个 where 条件就可以很快的得到响应：

select "A","B",sum("VALUE")
from test_agg_group
group by 1,2

Kylin 日志信息：

==========================[QUERY]===============================
Query Id: 2a9d7422-7268-2805-f1ac-a0fc544602c9
SQL: select "A","B",sum("VALUE")
from test_agg_group
group by 1,2
User: ADMIN
Success: true
Duration: 0.628
Project: 0000_reserved
Realization Names: [CUBE[name=test_agg_group]]
Cuboid Ids: [12]
Total scan count: 100000
Total scan bytes: 4900000
Result row count: 100000
Accept Partial: true
Is Partial Result: false
Hit Exception Cache: false
Storage cache used: false
Is Query Push-Down: false
Is Prepare: false
Trace URL: null
Message: null
==========================[QUERY]===============================

很明显，相比原 SQL，查询的响应时间就提升了好几个数量级。值得注意的是，Total scan count 也从原来的 100w 降到了 10w。

如果是一个传统 RDBMS 的 DBA 看到这一幕，一定会感到疑惑，添加了 where 条件的 SQL 扫描的行数竟然比没有 where 条件的 SQL 扫描的行数更多，简直不可思议。

问题根源

看到这里，有人可能已经逐渐忘记了标题。

回到这个 Cube 上看一看，它教科书般地使用了聚合组进行剪枝操作，完美的将 AB 和 CD 分到了两个聚合组中，将膨胀率降低了一半。

因此，当我们以 AB 维度进行聚合，D 维度进行过滤，Kylin 在搜索哪些行满足 D=1 这个条件时，就无法通过下图的方式进行搜索了。

因为不会有任何一个 Cuboid（大约 10w 行）像上面这样包含 ABD 三个维度和预计算好的值。所以最终 Kylin 会扫描下面这个 Cuboid （即包含 ABCD 四个字段的 Cuboid，大约有 100w 行）来获取最终数据。

这是一个在聚合组设置不当，且运气还很差的情况下才能触发的问题。

运气差在哪？

C 字段的基数非常大
D 字段的基数非常小

通过查看 SQL 执行的日志信息我们也能看到。当以 D 字段为过滤条件时，只能使用包含 ABCD 四个字段的 Cuboid 进行扫描。

但是 C 字段的基数非常大，所以该 Cuboid 的行数也就非常多。同时， C 字段并没有进行筛选，使用了基数非常小的 D 字段进行了筛选（一共 1000w 行，D字段有 500w 行是 1，500w 行是 2）。

最终导致要扫描完 Cuboid ABCD 的 100w 行才能得到计算结果。

那么如果筛选字段不是 D 而是 C，我们尝试下估算下需要扫描多少行呢？

select "A","B",sum("VALUE")
from test_agg_group
where "C" = 100000
group by 1,2

Kylin 日志信息：

==========================[QUERY]===============================
Query Id: e304ae37-f7ec-233b-d353-845e2feba908
SQL: select "A","B",sum("VALUE")
from test_agg_group
where "C" = 100000
group by 1,2
User: ADMIN
Success: true
Duration: 0.806
Project: 0000_reserved
Realization Names: [CUBE[name=test_agg_group]]
Cuboid Ids: [15]
Total scan count: 2
Total scan bytes: 102
Result row count: 2
Accept Partial: true
Is Partial Result: false
Hit Exception Cache: false
Storage cache used: false
Is Query Push-Down: false
Is Prepare: false
Trace URL: null
Message: null
==========================[QUERY]===============================

仅需要扫描个位数的行即可，因为 C 字段基数大，包含的重复值很少。而且我们可以看到，这条 SQL 和最初的 SQL 都是用了 Cuboid Id 为 15 的 Cuboid 进行查询，也就是包含了 ABCD 四个字段的 Cuboid。

而仅用了 AB 两个字段，不使用 CD 中任何一个字段进行筛选的 SQL 使用了 Cuboid Id 为 12 的 Cuboid。

总结

分聚合组时，哪怕用户仅仅关注维度 AB 组合和维度 CD 组合，但用户会可能用 D 作为过滤条件来查询 AB 组合，就一定要保证 ABD 要分到同一个聚合组当中。

当然了，如果字段的基数不像例子中这么极端，聚合组随便怎么分对性能影响应该都不大。但是，如果哪天墨菲定律突然上线，希望大家能想起本文。

又想 Cube 小，又想 Cube 跑得好？

剪枝原理

问题产生

问题定位

问题根源

总结

2025，再谈 AI 时代下数据语义层的价值

谁为 Data Agent “买单”？

服务手记丨国有大行如何在信创大数据平台上，跑通“全场景 OLAP ”？

攻略丨搭建属于自己的 DeepSeek，本地部署「手搓教程」在此！

码上时刻｜通过逻辑视图 Logic View 快速实现批流一体

头部银行 AI 落地实践｜数据应用赋能经营管理闭环

精准铺货、动态调整，指标平台让零售饮料企业掌握线下渠道主动权

把简单留给用户，把复杂交给 AI

头部房企｜数据驱动工程精细化运营，稳中提效

又想 Cube 小，又想 Cube 跑得好？

剪枝原理

问题产生

问题定位

问题根源

总结

您可能会感兴趣

阅读下一篇

2025，再谈 AI 时代下数据语义层的价值

谁为 Data Agent “买单”？

服务手记丨国有大行如何在信创大数据平台上，跑通“全场景 OLAP ”？

攻略丨搭建属于自己的 DeepSeek，本地部署「手搓教程」在此！

码上时刻｜通过逻辑视图 Logic View 快速实现批流一体

头部银行 AI 落地实践｜数据应用赋能经营管理闭环

精准铺货、动态调整，指标平台让零售饮料企业掌握线下渠道主动权

把简单留给用户，把复杂交给 AI

头部房企｜数据驱动工程精细化运营，稳中提效