Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
在很多场景中,精确去重是一个重要指标,例如统计 UV。Kylin 从 1.5.3 版本开始支持精确去重。Kylin 使用 Bitmap 实现精确去重,使用全局字典实现字符串到 int 值的映射。
基于改造后的 TireTree 实现的全局字典。
默认在单一 Kylin Job 节点上进行构建,如果一个 Cube 有多个全局字典列,会串型构建。如果将全局字典列设为 UHC(超高基数列),同个 Cube 的多个全局字典列可以通过 MR 并行构建,但是一个全局字典列只能分配在一个 Reducer 进行构建,仍然存在内存瓶颈。 当前全局字典存在的一些问题和可改进的点:
新版全局字典使用 Hive 和 MR 构建全局字典,使用 Hive 存储全局字典。
优势:
1. 添加 Count Distinct 度量
2. 配置使用新版 Hive 全局字典(默认使用原来的 TireTree 全局字典)
配置如下:
1)【必填】添加 kylin.dictionary.mr-hive.columns 配置,格式为:
{TABLE_NAME}_{COLUMN_NAME}
*如果有多个列,使用逗号隔开;
2)【必填】添加 kylin.dictionary.shrunken-from-global-enabled 配置,设置为 False;
3)【可选】kylin.dictionary.mr-hive.columns.reduce.num,设置各个全局字典构建的并行度,默认值为 2,格式为:
{TABLE_NAME}_{COLUMN_NAME}:{num}
例如:
KYLIN_SALES_SALES_ID:10,KYLIN_SALES_BUYER_ID:5
3. 其他步骤不变,正常构建即可
Kylin 2.6 集群,13 台节点,24 × 2 Cores,堆内存为 62G。
Cube 说明:
构建某一分区数据,数据量大小约为 9 千万行,全局字典列基数约为 500 万。
测试结果:
使用新版全局字典,相比原来的 tire-tree 全局字典,性能提升了 40%。
这里为了方便测试,仅仅设置了一个维度:
构建数据量大小约为 21 亿行,全局字典列基数约为 12.8 亿。
使用新版全局字典,相比原来的 tire-tree 全局字典,性能提升了 45%。
新版 Hive 全局字典的意义在于消除了原来单机构建字典的内存瓶颈和基数限制。全局字典分布式构建,可以增加并行度来提高构建效率,可以很好的满足业务需要。在全局字典列基数比较大或者同一个 Cube 存在多个全局字典列情况下,新版 Hive 全局字典的性能明显更好。
参考资料
[1] http://kylin.apache.org/cn/docs/howto/howto_use_hive_mr_dict.html
关于作者
杨正,58大数据部 Kylin 核心工程师
*注:本文来源于 58大数据部
想第一时间获得 Apache Kylin 资讯,请扫二维码,关注 Apache Kylin 官方微信公众号。
近年来,随着商业环境的竞争日益激烈,企业对于实时数据服务的需求急剧增加。Kyligence 在服务众多客户的过
数据要素在银行各业务领域和流程中发挥着至关重要的作用,面对激烈的市场竞争和客户需求,银行越来越注重从数据管理中
作为一名消费者,炎热的夏天我们会走进一家便利店,从冰柜中选出一瓶汽水;下午工作有点累了,我们会在公司的自动贩卖
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿(Luke)分享了对 AI 与数据行业的一些战
房地产行业是我国国民经济中的重要支柱产业之一,在房地产市场供求关系发生重大变化的当下,房企面临多重挑战。Kyl
今年年初,Kyligence 高级副总裁兼合伙人葛双寅(Silas Ge)受邀在阿斯利康“跃行致远三十周年年会
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿在公司内部的飞书订阅号发表了多篇 Rethin
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持