Kyligence Copilot - AI 数智助理,以 AI 变革企业经营与管理! 立即了解更多

【Microsoft Azure篇】手把手教你使用 Kyligence Cloud,玩转云端大数据

黄融
2018年 4月 04日

作者:黄融

1 关于Kyligence Cloud

Kyligence Cloud是Kyligence公司基于云端的大数据服务,为客户将大数据分析平滑上云提供解决方案。使用Kyligence Cloud,您可以在云端快速实现对PB级数据的交互式OLAP分析和关键业务查询的亚秒级响应,助力业务分析师和数据科学家快速发现数据内在价值,驱动商业决策。

Kyligence Cloud支持在Microsoft Azure平台上部署,它基于Azure HDInsight云端Hadoop服务,将数据处理容量从TB级扩展至PB级,同时保持OLAP分析和关键业务查询的亚秒级响应能力。Kyligence Cloud 以用户的身份与Azure 进行通信。用户创建集群时,Kyligence Cloud 使用用户提供的帐户信息,在其Azure 帐户下创建HDInsight集群及其它资源,并部署Kyligence 大数据分析引擎Kyligence Analytics Platform(以下简称KAP),从而实现数据的存储、访问与分析都在用户自己的云端账户内进行,最大程度上保护数据安全。

Kyligence Cloud @ Azure 架构图

借助于Azure计算与存储分离的架构,用户可以方便地对集群进行扩容和缩容,甚至在不需要数据分析的时候,可以安全地停止集群而不用担心丢失数据。表结构、Cube 模型等元数据存储在用户帐户下的SQL Server 实例中,Cube 数据会保存在Azure Blob Store 中。

2 文档主要内容

本文档主要介绍如何使用Kyligence Cloud在Azure上部署大数据分析集群,并进行后续的数据建模与分析。

1. 准备工作
2. 创建集群
3. 管理集群
4. 数据建模与分析
5. 帮助与支持

3 准备工作

3.1 申请 Kyligence Cloud 试用

Kyligence Cloud 提供 30 天的免费试用,试用期间能操作一个集群,并能试用产品的全部功能。

可通过 这里 进行试用申请。填写相关信息并提交,Kyligence Cloud将会对申请进行审核,申请通过后(通常一至三个工作日)会以邮件进行通知 。

3.2 准备 Microsoft Azure 帐号

Kyligence Cloud 以Azure作为底层计算和存储基础平台。本文仅介绍 Azure 的使用方法,您需要自己准备一个 Azure 帐号,并保证帐号中有可用的订阅,且帐号需具有分配角色的权限。

具体清单如下:

1. 准备1个 Azure 帐号( Azure 中国或 Azure 海外皆可)
2. 保证帐号中有可用订阅(该订阅需能创建 HDInsight,Storage Account 等资源)
3. 保证该帐号具有分配角色的权限
4. 保证 HDInsight 的可用内核数量能满足您的需要

3.3 Azure 应用注册

Kyligence Cloud 通过 Service Principle 的方式来验证和操作你的 Azure 帐号。简单来说,通过将 Kyligence Cloud 进行 Azure 应用注册,获取该应用的应用程序 ID、应用密钥和目录 ID,以这三者作为 Azure 授权凭证提供给 Kyligence Cloud 使用。 如果不了解这些概念,没关系,跟随下面的操作进行即可。

在 Azure 的控制台中,依次找到 Azure Active Directory –> 应用注册 -> 新应用程序注册。

在接下来的创建页面,名称一栏中填入“Kyligence Cloud”,应用程序类型选择“Web 应用/ API”,登录 URL 填入 Kyligence Cloud Portal地址“https://cloud.kyligence.io”。

创建完成后,把应用程序 ID 记录下来。

之后点击 设置 –> 密钥,在密钥页面输入密码描述,选择到期时间。点击保存,密码值将会生成,将生成的值保存下来。

在 Azure Active Directory –> 属性中,找到目录 ID 并记录下来。

现在来为刚才创建的应用赋予权限。我们在左侧“所有服务”中找到订阅,在订阅 -> 访问控制(标示和访问管理) -> 添加 中,角色一栏选择参与者、选择一栏输入 Kyligence Cloud,之后点击保存即可。

4 创建集群

4.1 登录Kyligence Cloud Portal

Kyligence Cloud Portal 是Kyligence Cloud提供集群服务和大数据分析入口的用户交互界面。

可通过 Kyligence Cloud 官网 访问,进入后需先进行登录。如果是初次访问,还将需要选择基础云平台,在本文中我们选择 Microsoft Azure -> Azure China(operated by 21Vianet),如果使用 Azure 海外帐号选择 Azure Global 即可。
之后将自动跳转至 Kyligence Cloud Portal,其界面如下图所示:

界面左侧为导航栏,有主页、集群、监控三个标签。

  • 主页页面展示集群的一些概要信息、帮助信息和大数据分析平台的快捷入口;
  • 集群列表页面展示 Kyligence Cloud 所管理的集群,可在该页面操作具体集群;
  • 监控页面展示对集群的操作的详细进度和状态。

4.2 创建集群

点击左侧导航栏中的“集群”标签进入在集群管理页面,在该页面中点击“新建集群”按钮。

第一次创建 Azure 集群时,需要在弹出对话框中填入的 Azure 验证应用 ID、应用密钥和目录 ID,这三样东西我们已在章节二中准备妥当,对应填入即可。

填写完成后再次点击“新建集群”按钮,进入集群创建页面。在弹出的对话框中选择“创建新的 Hadoop 集群”。
在集群创建页面中,需要做一些必要的集群配置:

  1. 填写集群名称;
  2. 选择集群密钥。集群密钥用于提交任务和登录集群仪表板,可以通过条目右侧“创建密钥”按钮进行创建;
  3. 选择 SSH 密钥。SSH 密钥用于远程访问集群;
  4. 设置集群节点。在集群拓扑结构中可以看到, 集群由两个头节点(负责任务调度)、一个边缘节点(KAP 安装于此)和若干工作节点(负责执行计算任务)组成。可以根据具体计算需求选择各类节点的类型(配置),以及工作节点的数量;
  5. 选择 KAP 版本。同时也可以选择是否安装 Kyligence自主研发的BI工具KyAnalyzer ;
  6. 设置邮件通知。集群的操作结果将会以邮件的形式通知到指定邮箱。

填写完成后,点击页面最下方的“提交”按钮。此时自动将返回至集群列表页,可以看到刚才创建的集群已经呈现在此,但此时这个集群还未运行。

返回集群页面,点击集群右侧的“开始”按钮将集群启动起来,此时 Kyligence Cloud 将在您的Azure账号内创建集群硬件资源和软件环境。整个过程持续 20~40 分钟,完成后将会以邮件的方式进行结果通知。

5 管理集群

Kyligence Cloud 不仅能快速创建出用于大数据分析的集群环境,还可以弹性地改变集群的规模,迅速响应用户的数据分析需求,实现成本优化。在没有数据分析请求时,甚至可以停止集群,系统会自动备份元数据和分析数据,之后可重新启动集群恢复至原本的状态。集群管理包括以下操作:

1. 伸缩集群
2. 停止/启动集群
3. 删除集群

5.1 伸缩集群

当计算资源不足或过剩时,可以利用 Kyligence Cloud 动态调整集群规模。

可以通过动态增加节点的方式来应对日益增长的数据规模所带来的计算需求,整个过程安全快捷。相对的,当计算资源过剩时可以动态地缩减集群规模,减少集群的节点数量,以节约成本。

点击集群条目的折叠按钮,可以找到简要的节点信息,点击工作节点这一项右侧的“修改”按钮即可针对工作节点的数量进行调整。

点击工作节点右侧的“+”和“-”进行数量调整。

5.2 停止集群

当集群没有任何分析查询请求并长时间处于空闲状态时,此时 Azure 仍将对集群硬件收取费用,可以考虑使用 Kyligence Cloud 停止集群来节省费用。

停止集群会为您安全地移除所有 Azure HDInsight 节点,并保存 KAP 和 Hive 的元数据至 BLOB 存储/SQL Server。可以在之后重启这个集群,元数据与分析数据也将随之恢复,集群一切如初。

停止集群,点击集群条目右侧的“停止”按钮即可。

停止操作大概持续十分钟,之后集群状态变为 STOPPED。你可以在之后任意时刻重新这个集群,仅仅需要点击一下“开始”按钮。

5.3 删除集群

当我们不再需要某个集群的时候,可以删除该集群。集群的一切资源将被移除,费用也将终止产生。注意删除集群会导致数据一同删除,且该过程不可逆,如果需要保留数据可以使用停止集群服务。

删除集群,点击集群条目右侧的菜单下的“删除”按钮即可。

6 数据建模与分析

集群启动完成后,我们可以使用集群内置 KAP (Kyligence Analytics Platform)进行大数据分析。

KAP大数据智能分析平台,是一款基于 Apache Kylin 的在超大数据集上提供亚秒级分析能力的企业级数据仓库产品,为业务用户、分析师及工程师提供简便、快捷的大数据分析服务。

6.1 访问大数据分析平台 KAP

在集群处于 RUNNING 状态时,Kyligence Cloud 会在集群列表下对应的集群条目中展示 KAP 的入口。

点击集群名称左侧的折叠按钮,便可以看到 KAP 的入口。

Hadoop集群的 Dashboard 的入口也在这里,Dashboard 提供 Hadoop 的管理和监控。

如果在创建集群时选择了同时安装 KyAnalyzer,那么 KyAnalyzer 的入口也将会展示。

6.2 使用 KAP 和 KyAnalyzer 进行大数据建模与分析

点击 KAP 的按钮,浏览器会跳转到 KAP 页面。KAP 自带了一个示例 Cube,可以对它完成构建,并执行查询。

Cube 构建好之后,可以登录 KyAnalyzer (默认用户名 ADMIN ,默认密码 KYLIN),同步此 Cube,并进行多维可视化分析。

更多关于数据建模与分析的使用方法,请参考Kyligence Analytics Platform文档,您也可以点击 Kyligence Cloud Portal左侧导航栏中的“主页”标签获取。

7 帮助与支持

到此为止,我们已经完整体验了使用 Kyligence Cloud 创建集群并进行大数据分析的流程。想要了解更多的信息,您可以点击 Kyligence Cloud Portal左下角的“支持”按钮,查阅产品文档或创建工单来反映您在产品使用过程中遇到的问题。同时,您也可以点击页面上方的“联系我们”向 Kyligence Cloud 寻求帮助,我们会尽快与您取得联系。

添加企微

kyligence
关注我们

kyligence