Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多

活动回顾 | Kylin Meetup 西雅图站

进入盛夏的 8 月 1 日,Kyligence 在西雅图东区的 Big Data Bellevue Meetup举行了一场专门的 Apache Kylin 技术讲座。
由 Siddharth Agrawal 和 Chaitanya Dabke 运营的Big Data Bellevue Group 由西雅图、贝尔维尤、雷德蒙德等城市的专业技术人员组成。在过去的五年里,它成功地举办了许多关于大数据技术的优秀讲座。
Kyligence 美洲区副总裁顾全及 Kyligence 首席架构师史少锋向来自 eBay、T-Mobile、亚马逊、微软等公司的架构师和工程师们作了演讲。
△ 活动现场
顾全首先开始,这位曾在 eBay 监管全球分析平台的大数据专家,讲述了以交互方式分析数百万笔交易的商务需求如何催生了一个全新的分析项目 Apache Kylin。之后,顾全分享了他对数据处理在二十年间演化发展的看法,并从他加入 Kyligence 之前在不同公司使用各种分析工具的经历中,破解了关于 OLAP 已死的传说。有兴趣的读者可以在此处阅读有关此主题的博客
史少锋是Apache Kylin项目的创建者之一,Apache Kylin PMC 成员,Kyligence 的创始工程师之一。史少锋介绍了实时分析,这是 Apache Kylin 3.0 的最新特性。传统的 Kylin OLAP 引擎设计用于处理以 Hive 表格式存储在数据湖中的历史数据。在 Kylin 1.5 中添加了近实时处理。近实时处理从流数据源(如 Kafka)读取数据,并以小批量方式更新多维数据集。Kylin 近实时处理的延迟大约是十分钟。对于某些用户场景,例如金融交易中的欺诈警报,这显然是不够快的。
在 Kylin 3.0 中,聚合数据(Cube)存储在实时服务器和/或历史服务器中(参见下图)。数据查询请求根据时间戳分区列分为两部分。最新时间段的查询请求将被发送到实时节点,而历史数据的查询请求仍被发送到 HBase 区域服务器。
△ Kylin 实时处理架构图
查询服务器需要合并两者的结果并将其返回给客户端。实时节点会按固定时间窗间隔创建 Segment,并不断摄入实时数据,实时节点会在内存中构建 Cuboid,并定时将内存中的 Cuboid 写入磁盘形成 Fragment 文件,定时 Checkpoint 和合并 Fragment 文件。等到 Segment 收集完它所负责范围内的实时数据并切换为不可变状态后,实时节点会将本地数据文件上传到 HDFS(也可配置为从本地删除:适合只关注实时数据的场景)。当上传 HDFS 完成后,MapReduce 将对它进行构建,从而实现实时部分到历史部分的转换,达到降低实时计算节点压力的目的。
凭借实时处理功能,Kylin 现在可以为历史数据和实时数据提供多维分析。这为金融服务、物联网、医疗保健、零售、广告技术等行业的许多用户场景打开了大门。用户现在可以使用 Kylin 这一种技术来处理所有的分析查询。这极大地简化了技术架构,提高了分析的生产率和准确性。有关 Kylin 实时分析的更多详细信息,请访问此页面
添加企微

kyligence
关注我们

kyligence