选批还是选流?我都要!

Author
黄健
2021年 8月 24日
一、前言

近年来,随着行业竞争加剧,为了抢占业务发展的先机,企业对产品的用户体验、服务的质量以及经营决策的时效性的要求不断提高。在此背景下,实时分析在多个场景得到了广泛的应用,如交互式的产品体验、个性化的精准营销、实时的指标分析等。随着应用场景的不断拓宽,实时分析技术的迅速迭代,企业迫切需要一套低数据延时、低维护成本,同时具备高性能、高并发的实时数据处理和分析解决方案。

交互式的用户体验

实时分析被广泛应用于 C 端场景中,在衣食住行中都有不少例子。在出行场景中,用户能够通过导航获得实时的路况信息及即时的驾驶总结;在出游、餐饮场景下,用户可以获取实时的排队等待情况等,这些都是利用实时分析来满足用户随时随地获取最新动态的需求。

(实时分析应用场景)

个性化精准营销

数字营销领域具有流量大、场景复杂、即时性要求高等特点,经常会催生出新技术。在数字营销的通用场景中,不管是实时竞价、营销自动化,还是在对用户行为数据的实时分析后进行个性化推荐,其背后的诉求都是品牌厂商希望领先竞争对手找到合适的用户,并为用户提供定制化服务,从而增强用户同品牌互动的意愿。

实时的数据驱动决策

长久以来,企业希望通过及时获取数据,对业务运营或经营管理过程中的关键节点进行分析,利用分析结果进行即时响应,例如反欺诈检测场景:当消费者信用卡出现异常并触发某个交易约束时,系统能够及时进行终止操作;又如实时指标场景:企业可以根据商品库存的实时情况,进行下单、补货等操作。

二、实时和离线处理架构

随着实时分析的价值越来越受到认可,企业纷纷组建专门的实时数据团队,开始搭建相关的数据平台来满足这一类需求。然而,由于数据的特点、技术架构和应用场景的不同,数据工程师们发现实时分析很难复用已有的面向历史数据的离线处理架构,企业不得不构建起单独的实时数据平台,同时还要承受复杂系统带来的维护成本、易用性、应用支持友好度等方面的挑战。

面对上述困境,实时计算的技术架构也在不断演进,从传统数据仓库到常见的 Lambda 架构、Kappa 架构,以及一些特定场景下的改良版,例如所谓的 Lambda Plus,Kappa+ 等。但是,对于想要获得便捷融合实时和离线数据分析能力的公司来说,无论上述哪种架构都有其不尽如人意之处。


传统数据仓库

传统数仓在历史和实时数据的获取、处理和查询分析上都需要维护两套独立的系统,无论是系统的运维成本、运行稳定性还是易用性等,都难以满足当今企业对数据处理的需求。 

Lambda 架构

Lambda 架构虽然在数据服务层(Serving Layer)解决了用户获取融合分析结果的问题,但仍需开发和维护两套数据处理代码,同样也需要维护两套分布式计算系统,无论是难度还是成本都给企业带来了重重挑战。

(Lambda 和 Kappa 实时架构)

Kappa 架构

Kappa 架构是由 LinkedIn 前首席工程师 Jay Kreps(现 Confluent CEO)在 Questioning the Lambda Architecture 一文中提出的。借助 Kafka 这样的高性能分布式消息系统,企业可以统一用实时计算框架来处理实时数据和历史数据,这样只用维护一套代码,在需要的时候另起一个实时任务把历史数据进行重新计算,通过移除离线处理系统来简化整个系统架构。但在实际生产实践中,大家会发现单一的实时处理过程对数据平台中常见的数据修复、Schema 变更、模型变更、缓慢变化维等场景都无法进行很好的支持。

三、Kyligence 批流一体

正如 OLAP 和数据分析的关系一样,实时 OLAP 是实时数据分析的一个重要场景。不同于一般意义上的实时数据分析,如实时大屏、实时监控告警、事件触发型应用等,往往可以通过某一确定的 SQL 语句来表达业务逻辑,实时 OLAP 对数据分析提出了更高的要求,需要兼顾灵活性和实时性能,从而满足数据分析师对多维度自由探查的需求

随着企业对实时数据和历史数据融合处理分析的需求高涨,“批流一体”逐渐也成为了大数据领域热词,但其实行业里对“批流一体”并没有标准的定义。在我们看来,批流一体主要包含两点:

  • 在数据处理阶段,通过同一套框架或代码来处理历史和实时数据,即数据处理的批流一体;
  • 在数据分析阶段,向用户提供历史数据和实时数据的融合查询能力,即数据分析的批流一体。

无论是在哪个阶段,批流一体的最终目的都是给用户带来统一的实时数据和历史数据的处理及分析体验

因此,在做技术选型时,企业不能一味地追求热点,而是应该以用户为中心,帮助其解决核心痛点才是首要准则。在实践中大家也意识到,对于批流一体的实时 OLAP 分析,企业不仅要求实时数据处理做到高吞吐、低迟时,对于包含历史数据的整体查询性能也提出了较高的要求,此外还需要对历史数据进行数据质量的校准和修复,包括但不限于对数据本身的修改、维度的扩充,以及 Schema 变更等。

Kyligence 致力于为企业提供 AI 增强的数据服务和管理平台,最新版本提供对场景 OLAP 的支持,其推出的批流一体能力,正是综合考虑到用户的实际需求,最终基于经典的 Lambda 架构与统一模型实现的。结合已有的高并发、高性能、多维数据分析等核心能力,Kyligence 能为企业在 PB 级数据集上带来统一、高效的实时和历史数据处理及分析体验。


四、总结

在满足用户对低延时、高并发的 OLAP 数据分析能力的前提下,Kyligence 实现了从 T+1 到 T+0 的拓展和延伸,在分钟级数据延时的情况下依然可以保持亚秒级查询响应,同时显著降低部署实时分析应用的开发和运维成本。这为当代企业快速获取批流一体的 OLAP 分析能力以及多样实时分析场景(包括精准营销、个性化服务、风险控制或指标分析等)提供了一套低成本、高效率的解决方案。

想了解 Kyligence 批流一体更多资讯,就在本周四(8月26日)15:00 在线研讨会,我们将探讨如下话题:

  • 大数据实时分析最新应用场景
  • Kyligence 批流一体架构优势
  • 批、流数据为何统一,如何统一
  • Kyligence 批流一体的业务价值

阅读更多


关于 Kyligence

Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。基于机器学习和 AI 技术,Kyligence 从多云的数据存储中识别和管理最有价值数据,并提供高性能、高并发的数据服务以支撑各种数据分析与应用,同时不断降低 TCO。Kyligence 已服务中国、美国及亚太的多个银行、保险、制造、零售等客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUM、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。公司已通过 ISO9001,ISO27001 及 SOC2 Type1 等各项认证及审计,并在全球范围内拥有众多生态合作伙伴。

申请试用
关注我们