Kyligence Copilot - AI 数智助理,以 AI 变革企业经营与管理! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
陈高英:银兴科技大数据工程师,目前主要负责Hadoop大数据平台的集群规划、咨询和实施工作,参与过多家行业知名客户的大数据平台规划设计与实施工作。
1.文档编写目的
我们在前面的文章简单介绍过Apache Kylin,请参考《如何在CDH中部署及使用Kylin》,文章中包含了如何在CDH上部署Kylin,以及创建cube,然后进行查询的两个demo例子。但对于CDH的生产系统,往往都会部署配置安全多租户,即Kerberos+Sentry,当CDH启用了Kerberos后,对于外部系统比如Kylin对接到CDH,我们就需要考虑安全认证的问题。本文主要描述如何在启用Kerberos的CDH集群中如何部署及使用Kylin。
•内容概述 1.下载Kylin 2.部署Kylin 3.Demo1
•测试环境 1.RedHat7.2 2.CM/CDH5.14.2 3.Apache Kylin2.3.1 4.集群启用Kerberos
•前置条件 1.CDH集群正常运行 2.Hive,HBase服务运行正常 3.安装Kylin服务的节点已经部署Hive Gateway、HBase Gateway角色
2.下载Kylin
社区版kylin下载地址:https://archive.apache.org/dist/kylin/ ,本次测试使用apache-kylin-2.3.1
3.部署Kylin
这里测试只部署了一个节点,实际生产可以部署多个节点,kylin是无状态的,前端做负载均衡,kylin的负载均衡配置后续会有文章详细介绍。
1.上传kylin安装包至服务器
2.解压至/usr/local目录,并建软链接
[root@nn ~]# tar -zxvf apache-kylin-2.3.1-cdh57-bin.tar.gz -C /usr/local/
[root@nn ~]
# cd /usr/local/
[root@nn local]
# ln -s apache-kylin-2.3.1-bin/ kylin
3.Kylin环境配置
主要配置kylin的home目录及java环境变量,配置如下:
[root@nn kylin]# vim /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera export KYLIN_HOME=/usr/local/kylin export PATH=$JAVA_HOME/bin:$PATH
[root@nn kylin]
# source /etc/profile
然后修改kylin.properites文件,Kylin2.3.1支持spark执行引擎,如果需要使用spark引擎,则需要修改以下的配置,确保spark能够访问到hive
4.在每个节点创建kylin用户
[root@nn shell]# sh batch_cmd.sh node.list "useradd kylin"
查看用户创建结果
[root@nn shell]# sh batch_cmd.sh node.list "id kylin" > check.txt
[root@nn shell]
# cat check.txt
5.创建kylin的kerberos账号,并生成kylin账号的keytab文件
生成kylin账号的keytab文件
并将kylin.keytab文件拷贝至部署Kylin的节点上
6.在部署kylin的节点上设置定时任务,进行kinit操作,kylin使用kylin用户去放问CDH集群的hive和hbase,所以需要kylin的凭证,通过定时执行以下脚本获取kylin用户的凭证
kinit -k -t /root/kylin.keytab kylin@MACRO.COM
添加定时调度,这里设置每天23点59分执行一次
7.授予kylin用户访问hive的权限,如果启用了sentry的情况下,需要做此操作,可以登陆beeline或HUE进行授权。
8.在HBase上授权,允许kylin用户有访问hbase的权限,包括建表的权限
简单测试hbase中kylin用户的权限
9.执行bin/check-env.sh检查kylin运行环境
10.启动kylin服务 确认主机所使用的kerberos凭证为kylin
执行bin/kylin.sh start命令
11.访问kylin的web UI,这里的地址是https://192.168.0.196:7070/kylin,默认账号密码为:ADMIN/KYLIN
4.Demo:Kylin自带Sample
1.Kylin本身自带了一个测试例子,创建流程如下: 执行sample.sh脚本,这个主要是创建kylin的project、model、cube以及相关的hive表等。
查看Hive default库中的表,多了五张表
2.进入kylin Web界面reload metadata
3.查看导入模型
4.构建cube
5.选择数据分区范围
6.点击monitor,查看正在构建cube的作业
这一步会比较耗时,因为这步会进行预计算,默认是MapReduce作业。
7.查询构建完成的cube
先运行简单的count,可以看到耗时2.14s,再次执行基本在豪秒级,因为kylin支持缓存功能
执行多表关联查询
select sum(KYLIN_SALES.PRICE) as price_sum,KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME from KYLIN_SALES inner join KYLIN_CATEGORY_GROUPINGS on KYLIN_SALES.LEAF_CATEG_ID = KYLIN_CATEGORY_GROUPINGS.LEAF_CATEG_ID and KYLIN_SALES.LSTG_SITE_ID = KYLIN_CATEGORY_GROUPINGS.SITE_ID group by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME order by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME asc,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2
耗时2.22s,查询支持多种展示方式,如:Line chart、bar chart、pie chart,可以点击Visualization查看可视化展示方式,并且可以选择不同的维度和度量字段。
"Apache and Apache Kylin are either registered trademarks or trademarks of The Apache Software Foundation in the US and/or other countries. No endorsement by The Apache Software Foundation is implied by the use of these marks."
01 现象 社区小伙伴最近在为 Kylin 4 开发 Soft Affinity + Local Cache
01 背景 随着顺丰末端物流(末端物流主要分为对小哥、柜机、区域等的资源的管理和分批;对路径、排班、改派等信息
Apache Kylin 的今天 目前,Apache Kylin 的最新发布版本是 4.0.1。Apache
Kylin 入选《上海市重点领域(金融类)“十四五”紧缺人才开发目录》 数字经济已成为全球增长新动
在 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会的「数字化转
近日由 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会在上海成
近五年来,Kyligence 服务了金融、制造、零售、互联网等各个行业的龙头企业,我们在服务这些企业的过程中,
2021年1月14日,Kyligence 产品经理陈思捷开启了我们在 2021 年的首场线上分享,为大家介绍了
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持