博客 > 技术博客

【运维篇】在启用Kerberos的CDH中部署及使用Kylin

陈高英

2018年 6月 12日

陈高英：银兴科技大数据工程师，目前主要负责Hadoop大数据平台的集群规划、咨询和实施工作，参与过多家行业知名客户的大数据平台规划设计与实施工作。

1.文档编写目的

我们在前面的文章简单介绍过Apache Kylin，请参考《如何在CDH中部署及使用Kylin》，文章中包含了如何在CDH上部署Kylin，以及创建cube，然后进行查询的两个demo例子。但对于CDH的生产系统，往往都会部署配置安全多租户，即Kerberos+Sentry，当CDH启用了Kerberos后，对于外部系统比如Kylin对接到CDH，我们就需要考虑安全认证的问题。本文主要描述如何在启用Kerberos的CDH集群中如何部署及使用Kylin。

•内容概述
1.下载Kylin
2.部署Kylin
3.Demo1

•测试环境
1.RedHat7.2
2.CM/CDH5.14.2
3.Apache Kylin2.3.1
4.集群启用Kerberos

•前置条件
1.CDH集群正常运行
2.Hive，HBase服务运行正常
3.安装Kylin服务的节点已经部署Hive Gateway、HBase Gateway角色

2.下载Kylin

社区版kylin下载地址：https://archive.apache.org/dist/kylin/ ,本次测试使用apache-kylin-2.3.1

3.部署Kylin

这里测试只部署了一个节点，实际生产可以部署多个节点，kylin是无状态的，前端做负载均衡，kylin的负载均衡配置后续会有文章详细介绍。

1.上传kylin安装包至服务器

2.解压至/usr/local目录，并建软链接

[root@nn ~]# tar -zxvf apache-kylin-2.3.1-cdh57-bin.tar.gz -C /usr/local/

[root@nn ~]

# cd /usr/local/

[root@nn local]

# ln -s apache-kylin-2.3.1-bin/ kylin

3.Kylin环境配置

主要配置kylin的home目录及java环境变量，配置如下：

[root@nn kylin]# vim /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera export KYLIN_HOME=/usr/local/kylin export PATH=$JAVA_HOME/bin:$PATH

[root@nn kylin]

# source /etc/profile

然后修改kylin.properites文件，Kylin2.3.1支持spark执行引擎，如果需要使用spark引擎，则需要修改以下的配置，确保spark能够访问到hive

4.在每个节点创建kylin用户

[root@nn shell]# sh batch_cmd.sh node.list "useradd kylin"

查看用户创建结果

[root@nn shell]# sh batch_cmd.sh node.list "id kylin" > check.txt

[root@nn shell]

# cat check.txt

5.创建kylin的kerberos账号，并生成kylin账号的keytab文件

生成kylin账号的keytab文件

并将kylin.keytab文件拷贝至部署Kylin的节点上

6.在部署kylin的节点上设置定时任务，进行kinit操作，kylin使用kylin用户去放问CDH集群的hive和hbase，所以需要kylin的凭证，通过定时执行以下脚本获取kylin用户的凭证

kinit -k -t /root/kylin.keytab kylin@MACRO.COM

添加定时调度，这里设置每天23点59分执行一次

7.授予kylin用户访问hive的权限，如果启用了sentry的情况下，需要做此操作，可以登陆beeline或HUE进行授权。

8.在HBase上授权，允许kylin用户有访问hbase的权限，包括建表的权限

简单测试hbase中kylin用户的权限

9.执行bin/check-env.sh检查kylin运行环境

10.启动kylin服务
确认主机所使用的kerberos凭证为kylin

执行bin/kylin.sh start命令

11.访问kylin的web UI，这里的地址是https://192.168.0.196:7070/kylin，默认账号密码为：ADMIN/KYLIN

4.Demo：Kylin自带Sample

1.Kylin本身自带了一个测试例子，创建流程如下：
执行sample.sh脚本，这个主要是创建kylin的project、model、cube以及相关的hive表等。

查看Hive default库中的表,多了五张表

2.进入kylin Web界面reload metadata

3.查看导入模型

4.构建cube

5.选择数据分区范围

6.点击monitor，查看正在构建cube的作业

这一步会比较耗时，因为这步会进行预计算，默认是MapReduce作业。

7.查询构建完成的cube

先运行简单的count，可以看到耗时2.14s，再次执行基本在豪秒级，因为kylin支持缓存功能

执行多表关联查询

select sum(KYLIN_SALES.PRICE) 
as price_sum,KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME
from KYLIN_SALES inner join KYLIN_CATEGORY_GROUPINGS 
on KYLIN_SALES.LEAF_CATEG_ID = KYLIN_CATEGORY_GROUPINGS.LEAF_CATEG_ID and 
KYLIN_SALES.LSTG_SITE_ID = KYLIN_CATEGORY_GROUPINGS.SITE_ID 
group by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME 
order by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME asc,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2

耗时2.22s，查询支持多种展示方式，如：Line chart、bar chart、pie chart，可以点击Visualization查看可视化展示方式，并且可以选择不同的维度和度量字段。

"Apache and Apache Kylin are either registered trademarks or trademarks of The Apache Software Foundation in the US and/or other countries. No endorsement by The Apache Software Foundation is implied by the use of these marks."

【运维篇】在启用Kerberos的CDH中部署及使用Kylin

Apache Kylin 5.0.0-alpha 正式发布，能力全方位提升！

JVM 调优之 Reserved Code Cache Size

北京顺丰同城科技｜末端物流场景下的 Kylin 优化

下一代 Kylin：更强大和易用的 OLAP

Kylin 认证培训硬核召集令，助力打造金融科技大数据紧缺人才

一文读懂企业如何进行数据资产服务平台转型

MLSQL：融合 Spark+Ray，让企业低成本落地 Data+AI

BI + AI：洞见数据和分析的未来

数十亿用户数据，上千个用户标签维度，用户分析怎么做？

【运维篇】在启用Kerberos的CDH中部署及使用Kylin

您可能会感兴趣

阅读下一篇

Apache Kylin 5.0.0-alpha 正式发布，能力全方位提升！

JVM 调优之 Reserved Code Cache Size

北京顺丰同城科技｜末端物流场景下的 Kylin 优化

下一代 Kylin：更强大和易用的 OLAP

Kylin 认证培训硬核召集令，助力打造金融科技大数据紧缺人才

一文读懂企业如何进行数据资产服务平台转型

MLSQL：融合 Spark+Ray，让企业低成本落地 Data+AI

BI + AI：洞见数据和分析的未来

数十亿用户数据，上千个用户标签维度，用户分析怎么做？