Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
全国规模最大的新能源汽车充电设施运营商特来电目前项目遍及 282 个城市,面对爆发的业务需求,其基于传统关系型数据库搭建的报表系统性能下降明显。如何高效稳定地基于大数据平台的数据进行多维查询成为大难题,经过多方技术选型与验证,特来电为什么选择了 Kylin?
今天为大家带来“征文赢首届 Kylin Data Summit 门票”活动的第二篇投稿文章,为大家揭秘特来电大数据平台的技术选型之旅。
1. 多维分析平台搭建背景
特来电新能源有限公司(以下简称“特来电”)是青岛特锐德电气股份有限公司的全资子公司,主要从事新能源汽车充电网的建设、运营及互联网的增值服务。特来电采用互联网思维,依靠国际领先的汽车群智能充电技术和系统,创新电动汽车充电商业模式,致力于建设并运营全国最大的汽车充电网。
随着公司业务量的增长,特来电基于传统关系型数据库搭建的各种报表系统,性能下降明显。同时由于大数据平台的的日趋完善,核心业务数据逐步进入大数据平台。数据进入了大数据平台,相伴而来的是各种业务需求,这里主要聚焦在如何高效稳定地基于大数据平台的数据进行多维查询。通过分析,我们面临的主要挑战如下:
基于以上目标,我们开始搭建大数据的多维分析平台。
2. 多维分析平台技术选型
搭建多维分析平台,首先面临的是技术选型,基于我们对开源框架的使用经验和实际情况,我们主要看业界主流的公司是如何使用应对的,在技术选型上会进行一定的比较,但不会投入比较大的资源进行验证,主张快速的迭代和效果的评估。多维分析平台的技术选型主要是 OLAP 引擎和前端 UI 的选型。
2.1 基本概念、分类
OLAP(Online Analytical Processing)叫联机分析处理,核心是分析,面向应用是分析决策,需要分析的数据级会非常大,可能 TB,甚至 PB 都会有。它的数据更新会稍微慢一些,它的设计一般是反范式的,因为面向分析。常见的是雪花模型和星型模型。
OLAP 的引擎目前主要分为 3 类:ROLAP、MOLAP、HOLAP。
HOLAP 聚合后的数据在 Cube 中,选型上同 MOLAP 类似,因此技术选型上主要考虑 ROLAP 和 MOLAP。关于 OLAP 的分类已经经过了很多年的发展,市场上相关的产品也有很多,但是大数据下基于开源组件应该怎么选择?
2.2 核心技术需求
2.3 技术验证
2.3.1 ROLAP
按照ROLAP的思路进行了验证,即查询时直接基于原始数据进行查询。
基于以上,大数据时代有了分布式计算和分布式存储,计算速度和存储量都得到了提升,但是每种大数据工具都有特定的适用场景,目前还没有一个可以全场景覆盖的数据库。以上的测试过程通过水平扩展节点,性能可以进一步得到提升,但是成本比较高。
2.3.2 MOLAP
MOLAP 即根据需要查询的维度提前进行计算好也就是预计算,这个思路实际上很多人在自己业务中经常使用,比如我们会根据电站、结算账户等信息提前归集充电订单相关的信息进行查询。通过研究发现,目前大数据的开源组件基于此思路的数据库 Kylin 应用比较多,并且基于 Kylin 的 KMS 框架(后续章节详细介绍)更是包含了前端展现,这成为技术选型的另一个大的特点,综合分析KMS框架比较贴近我们的技术需求。
基于以上,我们决定先期基于 KMS 框架搭建多维分析平台。
3. KMS框架介绍
3.1 框架简介
KMS = Kylin + Mondrian + Saiku 是一个简单的三层架构,Git 上已经有一个整合Kylin、Mondrian以及 Saiku的项目(https://github.com/mustangore/kylin-mondrian-interaction)。
3.1.1 Apache Kylin
Kylin 是 Apache 软件基金会的顶级项目,一个开源的分布式多维分析工具。通过预计算所有合理的维度组合下各个指标的值,并把计算结果存储到 HBase 中的方式,大大提高分布式多维分析的查询效率。Kylin 接收 SQL 查询语句作为输入,以查询结果作为输出。通过预计算的方式,将在 Hive 中可能需要几分钟的查询响应时间下降到毫秒级。
3.1.2 Mondrian
Mondrian 是一个 OLAP 分析的引擎,主要工作是根据事先配置好的 schema,将输入的多维分析语句 MDX(Multidimensional Expressions)翻译成目标数据库/数据引擎的执行语言(比如 SQL)。
3.1.3 Saiku
Saiku 提供了一个多维分析的用户操作界面,可以通过简单拖拉拽的方式迅速生成报表。Saiku 的主要工作是根据事先配置好的 schema,将用户的操作转化成 MDX 语句提供给 Mondrian 引擎执行。
其中 Mondrian 和 Saiku 已经是非常成熟的框架,这里我们简单看下 Kylin 的架构。
3.2 Apache Kylin
Apache Kylin™ 是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。
Apache kylin 能提供低延迟(sub-second latency)的秘诀就是预计算,即针对一个星型拓扑结构的数据立方体,预计算多个维度组合的度量,然后将结果保存在 HBase 中,对外暴露 JDBC、ODBC、Rest API 的查询接口,即可实现实时查询。主要的使用包含 3 个步骤
更多关于 Kylin 的案例、原理、调优,大家可以参考 Kylin 的官方网站(https://kylin.apache.org/cn/)和社区,并可以通过社区邮件进行问题交流。
4. 多维分析平台的架构及应用情况
4.1 业务规划
多维分析报表的创建,除了工具本身之外,对系统数据的处理和设计也是非常之重要,基于目前的使用,主要考虑以下几个问题
基于以上我们将数据和维度进行了层次划分,业务处理过程采用逐层汇总的方式,进行数据汇总,最后通过 Saiku 进行查询展现。数据分层结构如下:
4.2 部署架构
基于 Kylin 的设计架构,我们充分利用现有的 HBase 集群和计算集群,搭建了基于 KMS 的多维分析平台,这里重点介绍一下我们的架构部署情况。先看一下部署架构:
目前进入 Kylin 的数据主要来自于 SQL Server 和 Kafka,通过 Kettle、Flume等工具将数据抽取到离线计算集群 Hive 数据库。
数据抽取到 Hive 数据库之后,通过统一的调度工具调用 Kylin 的 Cube 的 build API,按照业务需求对之前定义好的 Cube 进行预计算,计算好的结果存储到 HBase 集群。
考虑到 Kylin build 时占用资源较多,集群部署时,将 Kylin 的 build 节点和查询节点进行了分离。目前 build 节点为 1 台,查询节点为 2 台。Hbase 集群目前和线上的业务公用。
前端展示 Saiku 是个成熟的多维分析展现工具,对接的数据源类型较多,社区开源版本主要提供了 Kylin、MySQL 的支持。在适应性上可以直接和kylin和tidb进行连接使用。由于 Kylin 查询节点部署了2台,为了充分使用 Saiku 的缓存,在 Saiku 端开发了基于用户的负载均衡。同时考虑到我们目前使用的集群,通过自定义开发实现了与 ES 集群的连通性。
4.3 多维报表开发流程
基于日常的应用,确定了多维分析报表定义的基本流程,多维报表开发流程包含了从业务规划分析、定义、上线、监控的整体流程。如下:
4.4 应用情况
目前通过 Kylin 定义的 Cube 有 20+ 个,最大的 Cube 存储已经超过 2T。基于 Saiku 定义的报表目前主要用于公司的运营、运维、充电安全相关的查询。主要的应用场景分为 2 类:T+1模式的 Cube构建;每小时构建。其中最大的查询维度已经接近 100 个。系统应用截图如下:
通过多维分析,主要带来了以下几个方面的提升:
4.5 解决的问题
4.5.1 Saiku相关的提升
4.5.2 Kylin 相关的优化与应用提升
5. 总结及问题
5.1 目前存在的问题
5.2 下一步的方向
近年来,随着商业环境的竞争日益激烈,企业对于实时数据服务的需求急剧增加。Kyligence 在服务众多客户的过
数据要素在银行各业务领域和流程中发挥着至关重要的作用,面对激烈的市场竞争和客户需求,银行越来越注重从数据管理中
作为一名消费者,炎热的夏天我们会走进一家便利店,从冰柜中选出一瓶汽水;下午工作有点累了,我们会在公司的自动贩卖
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿(Luke)分享了对 AI 与数据行业的一些战
房地产行业是我国国民经济中的重要支柱产业之一,在房地产市场供求关系发生重大变化的当下,房企面临多重挑战。Kyl
今年年初,Kyligence 高级副总裁兼合伙人葛双寅(Silas Ge)受邀在阿斯利康“跃行致远三十周年年会
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿在公司内部的飞书订阅号发表了多篇 Rethin
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持