Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
在“用Apache Spark分析8000万亚马逊产品评分评价”中,Max Woolf利用Python,R及Apache Spark分析了亚马逊数据集。
本文将介绍如何利用Apache Kylin和Tableau来轻松生成即席查询报表并查看其响应时间。
所需软件:
克隆以下文件包
git clone https://github.com/albertoRamon/Kylin.git
关于亚马逊产品评价数据集
这个数据集提供了两种文件:
评价文件:包含购买完产品后客户给产品的打分,从0到5颗星,并写产品评价。
元数据文件:包含产品的完整描述:产品名称,产品品牌,产品图片,产品分类等。
这些文件中的亚马逊产品通过asin唯一识别码进行关联。
我们使用如下两个文件:
元数据文件是一个gz压缩的json文件,包含940万的产品数据。(大小:3.4GB/10.5GB)
产品评价文件是一个未压缩的CSV文件,包含8260万的评价数据。
将数据下载下来(未压缩)并存在DataDownloaded文件夹,如图所示:
注释1: 下载大文件需要写邮件提交申请。
注释2: 产品评价文件可以用subset部分的一个较小文件替代。
我们需要把这两个原始文件加载到Hive表中,执行这个命令的python脚本如下
python processItem.pypython processMetadata.py
随后你会在DataProcessed文件夹中生成两个新文件,如图所示:
如果你在使用Docker
编辑脚本/01-ImportData.sh并指定ID Docker镜像
ContainerID=’58b’
执行以下脚本: 复制数据到Docker容器并创建Hive表
./Scripts/01-ImportData.sh
如果你没有使用Docker:
手动复制DataProcessed文件夹中的数据到你的集群gateway,编辑脚本/02-CreateTB.sql 并指定路径。
set hivevar:PathFiles=/Amazon_Review;
连接你的集群并执行:
hive -f 02-CreateTB.sql
1. 创建新项目
点击并输入一个项目名称
点击和
选择需要导入的表 (按住Ctrl多选)
指定一个事实表
指定一个维度表
指定一个维度字段
指定一个计算字段
点击
选择之前定义的Amazon_Review的数据模型
定义其中两个维度为Normal
定义计算字段
在配置文件中覆盖:
开始构建:>
处理8000万行数据,在一台笔记本上用了30分钟:
用Tableau连接Cube生成报表
01 现象 社区小伙伴最近在为 Kylin 4 开发 Soft Affinity + Local Cache
01 背景 随着顺丰末端物流(末端物流主要分为对小哥、柜机、区域等的资源的管理和分批;对路径、排班、改派等信息
Apache Kylin 的今天 目前,Apache Kylin 的最新发布版本是 4.0.1。Apache
Kylin 入选《上海市重点领域(金融类)“十四五”紧缺人才开发目录》 数字经济已成为全球增长新动
在 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会的「数字化转
近日由 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会在上海成
近五年来,Kyligence 服务了金融、制造、零售、互联网等各个行业的龙头企业,我们在服务这些企业的过程中,
2021年1月14日,Kyligence 产品经理陈思捷开启了我们在 2021 年的首场线上分享,为大家介绍了
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持