Kyligence Copilot - AI 数智助理,以 AI 变革企业经营与管理! 立即了解更多

我们在纽约 Strata 大会上看到了哪些技术趋势?

马洪宾
Kyligence 技术合伙人& 研发副总裁
2019年 10月 23日

9月,全球顶级大数据峰会 Strata 在纽约顺利举办,此次大会有哪些值得关注的技术趋势?大数据圈又发布哪些酷炫新产品?我司研发+颜值担当马洪宾同学亲历了此次大会,并发表了演讲。今天小编特地邀请了小马同学为大家带来这篇分享。

先上图,让大家感受一下当时的气氛:

C 位出道的 Kyligence
Kyligence 工作人员与 Apache 社区大佬 Ted Dunning 合影

接下来言归正传,跟读者们分享一下笔者在本次大会上的一些见闻:

Hadoop 本身不再成为焦点

我们在 Strata 官方的日程安排中搜索 Hadoop 关键字,仅有的匹配也大多是“migrate to spark”或者“migrate to cloud”。尽管今天 Hadoop 在企业级数据平台上仍然有比较高的使用率,但是可以预见的是在不远的未来,Hadoop,Yarn,Hive 这些曾经熟悉的词汇可能越来越少地听到。 

在笔者看来,Hdfs 的生命周期反而可能会延续地更长一些:虽然诸如 Spark,Flink 计算引擎在不断创新,但是存储层的创新并没有保持同样的节奏。在云上,有S3 和 ADLS 强烈威胁着 Hdfs,但是在本地部署环境中,Hdfs 缺少竞争,应该仍然还有很强大的生命力。现在主流的大数据持久化格式,包括 Parquet,ORC,以及在此之上不断进步的文件加密技术等工作都在为 Hdfs 不断续命。(参考话题: Protect your private data in your Hadoop clusters with ORC columnencryption)

插播一条广告:我司在2019年7月推出的新一代企业级数据平台 Kyligence Enterprise,在没有 Hadoop,没有 Yarn,没有 Hive 的本地部署环境或者云上环境都可以愉快地使用,轻松实现自动建模、存储下降最高达50%。点击了解最新产品解读

云上数据湖方案成为行业主流

随着 Snowflake 在北美的大获成功,大数据厂商都开始布局围绕公有云提供 PaaS 或 SaaS 服务。大家都熟知的大厂 Cloudera,在这次的 Strata 大会上也推出了 Cloudera Data Platform (CDP) 的 demo。从参数设置,监控页面的设计来看,CDP 跟 CDH 平台比起来还是有一些差距。CDP 代表了 Cloudera 未来产品路径的演化方向。其中,CDP 中数据仓库服务 Cloudera Data Warehouse 又是CDP 的重头戏,根据笔者的分析和猜测,Cloudera Data Warehouse 部分借鉴了Snowflake 的设计:存储和计算分离,存储放S3,计算弹性伸缩,用类似 Snowflake 的 Virtual Warehouses 的概念来封装 CPU,内存,本地SSD缓存等计算资源,以满足不同时间段不同的用量需求。

参考文章:https://docs.snowflake.net/manuals/user-guide/warehouses.html

这样的趋势还能在 Kyligence, Google, Dremio 等诸多大数据厂商中找到类似的方案。整体来说,云上的存储相对便宜(约$20 per month per TB),而计算资源相对昂贵,这样的设计能够越来越多地满足数据湖“承载一切”的诉求,同时又能实现成本优化,降低企业总体拥有成本(TCO)。

Kyligence 在此次大会上也发布了我们最新的云产品,Kyligence Cloud 3.0 ,能够为我们的客户在云上提供一站式的,增强学习的,超强性能的低 TCO 解决方案。

AI 借助生命周期管理平台,逐渐落地

经过这几年的发展,AI 已经逐渐从一个神乎其神的概念词汇,慢慢得和“大数据”一样,回到人间开始稳健的产品化推广应用。在这次展会上,看到很多参展商主打的都是 metadata-driven 的,全生命周期管理的 feature engineering 和 model management 平台,简称一站式 AI 平台。当一个技术不再只关注下围棋能否赢过人类,而是开始广泛地关注这些生产上线的辅助工具的时候,感觉 AI 的大规模商业化使用可能才刚开始。

另外值得一提的是,在这次展会上,无论是传统的厂商例如 Teradata, Vertica,还是一些比较新的数据库厂商例如 Kyligence, MemSQL 等,大家主推的技术在行业内都能在其他的友商上找到共同点,分布式数据库、内存数据库,时序数据库,依旧是大会热点。

Strata 大会让我们看到了更多的机遇和挑战,如我司中文名跬智所提倡的,积跬步至千里,我们还将为全球企业带来更多高性能、高可靠性的数仓产品。

作者介绍

马洪宾,技术合伙人& 研发副总裁,Apache Kylin 核心开发者和项目管理委员会成员(PMC),专注于大数据相关的基础架构和平台。在加入 eBay 之前曾经是微软亚洲研究院的图数据库 Trinity 的核心贡献者,加入eBay 后成为 Apache Kylin 首席 Committer(根据 Github 统计)。对 Apache Kylin 的贡献主要在存储引擎,查询优化,测试覆盖等领域,目前是 Kyligence 企业级数据仓库产品的技术负责人。

添加企微

kyligence
关注我们

kyligence