Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
作者:何京珂
编辑:Sammi
在上一篇介绍可计算列的文章中,我们对可计算列的基本使用做了全面的介绍(详情点击:【技术帖】KAP 2.4新特性:可计算列 Computed Column),今天,本文将着重介绍如何在可计算列中结合Hive UDF实现更多扩展计算。
什么是UDF?
UDF即User defined function,用户定义函数,当Hive中自带的函数不能满足用户对数据计算、处理的需求时,KAP的可计算列还支持内置使用Hive UDF,从而进一步扩展可计算列的功能。
下面我们就用一个案例给大家介绍如何在KAP中结合Hive UDF使用可计算列。
准备工作
首先我们以一个用户表为例,如下图所示的数据:
图 1
我们已经获得用户的一部分个人信息:姓名、性别、年龄、省份等,但是实际分析中了可能我们希望获得用户的更多人信息如用户的星座,用户姓名的拼音等。通过使用第三方的Hive UDF我们可以从已有的个人信息中提取出更多需要的信息。Hive自带的函数无法实现对星座,拼音等特殊信息进行提取,因此我们需要依赖第三方UDF进行处理。
Github上的Hive Third Function这个UDF包就可以解决上述数据处理的需求,首先我们需要将这个UDF加载到系统的Hive中。
安装 UDF包
在GitHub网页上下载最新版的hive third function的jar 包,将jar包解压缩放到系统环境的目录中。
图 2
把引用UDF jar包的语句放入${HOME}/.hiverc 文件中:
vi .hiverc
图 3
启动hive测试UDF是否已经正确加载:
select pinyin('中国'); select zodiac_cn('1989-01-08');
图 4
如果上图中的函数能够正常返回结果,说明UDF函数jar包已经正确加载完成。下面我们就可以直接在可计算列中使用这些第三方的函数了。
在KAP可计算列中使用UDF函数
首先在KAP中将目标的用户表进行同步。
图 5
创建模型。
图 6
在模型中引用UDF函数创建姓名拼音、星座等可计算列。这些可计算列所使用的函数列表如下,下面的函数都是来自前文加载的UDF包。
图 7
创建可计算列将用户姓名转化成拼音。
pinyin(name)
图8
创建可计算列从用户生日中获取星座:
zodiac_cn(BIRTHDAY)
图 9
所有模型及可计算列都定义完毕后,相应的创建Cube。
图 10
Cube构建好后在分析页面调用users表中的数据。
图11
可以看到所有的可计算列都已经计算出来了。
图 12
总结
利用上文介绍的方法,使用可计算列结合第三方UDF对数据进行信息提取、信息转化,在实际应用案例也可以对超高基维的字段可以进行分组等,从而有效的对数据进行降维。更重要的是可计算列在Cube构建后也和一般源数据列一样被预计算,因此可以充分发挥Cube的性能优势。
近年来,随着商业环境的竞争日益激烈,企业对于实时数据服务的需求急剧增加。Kyligence 在服务众多客户的过
数据要素在银行各业务领域和流程中发挥着至关重要的作用,面对激烈的市场竞争和客户需求,银行越来越注重从数据管理中
作为一名消费者,炎热的夏天我们会走进一家便利店,从冰柜中选出一瓶汽水;下午工作有点累了,我们会在公司的自动贩卖
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿(Luke)分享了对 AI 与数据行业的一些战
房地产行业是我国国民经济中的重要支柱产业之一,在房地产市场供求关系发生重大变化的当下,房企面临多重挑战。Kyl
今年年初,Kyligence 高级副总裁兼合伙人葛双寅(Silas Ge)受邀在阿斯利康“跃行致远三十周年年会
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿在公司内部的飞书订阅号发表了多篇 Rethin
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持