Kyligence DeepInsight AI 深度洞察 - 首个企业级自主深度推理和洞察产品发布 立即了解更多
Kyligence DeepInsight
Kyligence AI 数据智能体 Kyligence AI 数据智能体
Kyligence Enterprise Kyligence Enterprise
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
2017 年 6 月 5 日 - 7 日,由 Databricks 举办的 Spark Summit 2017 在旧金山顺利召开。历时三天的会议,吸引了全球 3000 多名开发人员、科学家、分析师、企业高管等,以及来自 Intel、红帽、Facebook、Netflix 等企业的技术专家前往参加,并就数据科学、机器学习和流式媒体在内的 170 多个课程和 10 个主题会场进行了交流与探讨。
Spark Summit 是全球最大的 Apache Spark 社区活动,Apache Spark 拥有来自 250 多个组织的超过 1000 位贡献者,是大数据中最大的开源社区。自 2013 年首次举办以来,吸引全球各地的大数据关注者、从业者涌入 Spark Summit,以更好地探讨最新的 Spark 发展动态及产品应用和技术实践——无论是 Spark 发展前沿、Spark 优化技巧,还是各种规模上的 Spark 部署。
此次旧金山 Spark Summit,Databricks 发布了 Deep Learning Pipelines,这是一个可以轻松地将深度学习框架与 Spark 相结合的类库。Databricks 联合创始人兼 CTO Matei Zaharia 等人在演讲中介绍,深度学习具有巨大发展潜力,但现阶段仍处于使用低 Level 的 API 阶段,Spark 接下来将着重发展更易用的 Machine Learning,实现“高 Level 的易用 API,且兼容 Tensorflow 等流行开源引擎”目标。此次推出 Deep Learning Pipelines 便旨在降低复杂的深度学习。
除了深度学习,流式数据处理也成为大会的另一大重要议题。未来,Spark 将打造更完善、高吞吐、低延时的 streaming process,用以支持流式数据处理。Matei Zaharia 在会上透露,Spark 2.2 发布的新 streaming Api: StructStreaming,拥有高 Level API、Event-time,支持端到端的不重不丢等特性。Spark 2.2 版本将最终从接近实时的数据流传输到真实的数据流传输。
Databricks 还在其 Unified Analytics Platform 上发布了称之为 Serverless Platform 的新特性,该特性可以节省开发者花费在集群管理上的时间,并提高集群的资源利用率以降低成本。
Kyligence CEO & 联合创始人韩卿,及 Kyligence 架构师史少锋,在峰会上以《Apache Kylin: Speed up Cubing with Spark》为题,分享了 Apache Kylin 将 Cube 构建过程迁移到 Spark 上来加速预计算的过程。
Kylin 自最初起就开始使用 MapReduce 构建 cube,MapReduce 逐层生成 layer cubing 的构建方式较为稳定,但在性能方面却有待提升,例如每一层数据都需要通过 HDFS 来保存和共享,造成对集群的大量 I/O 操作,因此构建时间不理想;此外,MapReduce 存在不支持流处理、不支持各种非 HDFS 存储等缺陷,这些都限制了 Kylin 的使用场景。
为了解决以上问题, Apache Kylin 的 2.0 新版本推出了基于 Spark 的 Cube 构建引擎。Spark 引擎利用 RDD 来描述每层 Cuboid,利用内存来缓存每一层的 Cuboid,当下一层的 Cuboid 被计算出后,再将上一层 RDD 写入 HDFS 并从内存中清除,从而减少了对磁盘和网络的反复读写。
通过针对美国交通部公布的过去 30 年的航班准点率数据的构建测试,很好地展现了 Spark 引擎带来的构建效率的提升。测试中,在同一环境下,对一个 10 维度的 Cube,分别在 300 万、5000 万和 1 亿 6000 万行数据量集上去比较 MapReduce 和 Spark 的构建所耗时间。可以看到,当数据量在 300 万和 5000 万行的时候,Spark 的构建时间是 MapReduce 的 50% 和 40%;当数据量达到 1 亿 6000 万行时,由于 Cube 的膨胀导致 Spark 开始将数据写入磁盘,即便这样它也只使用相比于 MR 的 60% 的时间。
总体而言,Kylin 使用 Spark 构建引擎后,Cube 构建的性能提升一倍左右,这意味着构建时间减半;同时,Spark 提供了比 MapReduce 更加丰富灵活的操作,使得 Kylin 的开发效率比以前大大提高;此外,应用 Spark 技术也将进一步扩大 Kylin 的应用场景,例如支持即席查询、实时 OLAP 以及在云平台上更加灵活地与整合各大云平台的合作等。
9月8日,由数智猿×数据猿联合主办的“2025第五届数智化转型升级发展论坛——暨 AI 大模型 & A
全球权威的技术研究与咨询公司 Gartner 在其最新发布的《2024 年中国数据、分析及人工智能技术成熟度曲
7月28日下午,2025世界人工智能大会暨人工智能全球治理高级别会议闭幕式在上海世博中心银厅举行。跬智信息联合
7月18日,在由非凡产研主办的2025年度生成式 AI 全球化高峰论坛暨「Go Global AI 100」年
“一旦企业的数智化建设真正运行起来,好像都「顺」了。”这是跬智信息(Kyligence)在为中国新能源巨头车企
近日,The Channel Company® 旗下权威科技媒体 CRN® 正式发布了 2025 年“大数据1
跬智信息 Kyligence Zen 一站式指标平台 与 Kyligence AI 数智助理 2.0 近日顺利
5月27日,中国工人大思政课(第九站)“紧跟党的步伐 走在时代前列”——上海市经信系统青年职工理论学习分享会暨
随着大模型加速落地,企业正从“接入大模型”阶段,走向“构建业务型智能体”的深入实践。近日,中国信息通信研究院正
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
登记申请,确认后即可体验
超越普通人类专家的 AI 自主深度洞察
体验预置跨行业智能体模板,涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
超越大模型的精准数据计算能力
接入高精度数值计算大模型服务,为您的企业级 AI 应用提供强大支持。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持