博客 > 技术博客

把简单留给用户，把复杂交给 AI

Kyligence

2024年 2月 29日

2024 年伊始，Kyligence 联合创始人兼 CEO 韩卿（Luke）分享了对 AI 与数据行业的一些战略思考，以及对中美企业服务市场的见解，引发业界同仁的广泛共鸣。正值 Kyligence 成立 8 周年，恰逢 AI 技术应用风起云涌之际，我们特此公开 Luke 在去年的一封全员信，一起回顾 Kyligence 在 AI 浪潮中的关键思考与决策：

在 AI 领域蓬勃发展的背景下，Kyligence 将如何布局发展战略？
面对已经深度使用的众多客户，如何依托 AI 技术创造更大的价值？
深耕多年的大数据 OLAP 技术，如何在 AI 时代持续发挥优势？

我们非常欢迎行业内的朋友们进一步交流和探讨。我们期待各位在评论区留下您的见解和体会！

初心：聪明的神兽

2016 年，我们创立了 Kyligence，名字来自 Kylin 和 Intelligence，我们希望让神兽变得更加聪明。在当年 Strata 北京大数据峰会上，Intel 和 Kyligence 一起成了“Intelligence”组合，那时候经常开玩笑说，Intel 抢了“智能”的前半个单词，我们抢了后半个单词，一起成就智能世界。

之所以要让神兽变得更加聪明，是因为 Apache Kylin 最初在 eBay 内部诞生时，我们就希望这个项目能够让数据分析师、业务人员等更加简单、方便、高效地使用数据。当年 eBay 内部分析师想要分析 Hadoop 上的数据要经历非常痛苦和冗长的过程，而 Apache Kylin 的出现使得分析师能够轻松且快速地访问 PB 级别的数据。

当时，数据仓库依然是主流，而 Hadoop 为核心的数据湖生态，缺乏标准、好用、高性能的 SQL 引擎，更无法和 BI 系统进行方便快速的交互。在打败了内部其他 6 个相关项目（当时 eBay 内部发起了 Fast Analytics Program，同时验证 7 种技术方向）后，Kylin 成为 Extreme OLAP on Hadoop，为分析师提供了方便快速的 SQL 交互能力，并在2014年开源并贡献给Apache 软件基金会，随后在2015年成功毕业，成为中国团队主导贡献到 Apache 软件基金会（ASF）的第一个顶级开源项目，获得了全世界大量用户的认可。因此，我们创业后的第一个 slogan 就是“释放大数据生产力”，希望能够借助 Kylin 打下的开源社区基础，在企业级市场，通过提供提升效率让客户充分释放大数据的潜力。

随着 Kyligence 的成立，我们一直在提升性能、交互能力以及易用性等方面不断进行投入，使得我们的商业版产品越来越好用。性能方面，开源的 Kylin 已经在各大互联网厂商的大规模数据上得以验证。而在走向商业客户，尤其是金融客户的过程中，我们更深刻理解了“生产力”的重要性。在传统的数据仓库方法论中，需要大量的 ETL 和建模工作来搭建数据基础架构，而 Kyligence 大大改变了这里的工艺流程，使得用户只需关心数据模型，而无需再建立各层 Summary Table 等，整个跑批、调整的过程可以通过配置方便进行，无需大量的开发、测试、上线等复杂流程。

2018年，在美国市场的实践让我们意识到，我们需要在“自动化”方面进行更多的投入。原因是我们发现在和美国的客户进行交流、POC 和上线的过程中，我们依然需要大量的人工来完成底层模型的调优，这在美国这个人力成本极高的市场显然不合适。同时我们也发现服务国内客户上线的过程中，太多重复性的工作其实可以通过自动化来完成。经过艰苦卓绝的几轮迭代（多次推倒重来，创新是建立在不断的假设验证改进的过程上），在2019年，我们发布了 AI 增强引擎，应该也是行业首个通过底层机器学习能力进行自动化建模和推荐的 OLAP 系统。

正如右图所示，Kyligence 后续几年持续在自动化、智能化方面的不断探索：解决指数级增长的数据和应用，与极其短缺的产业工人（数据分析师）之间的矛盾。我们深知，依靠诞生于70年代的传统数据仓库方法论已经无法适应支持每个人用好数据，必须依靠创新，才能进一步帮助我们的客户完成数智化转型。

从不断迭代底层技术平台，从 Hadoop 技术栈到 Spark 技术栈，再到云计算和全面容器化，我们同时也在不断强化 AI 增强引擎方面的能力。随着越来越多客户使用该能力改善模型建设、系统调优和平台运维等后，我们一直在思考，如何能够更上一层楼，如何从后台系统往前走一步，如何通过引入新技术、新方法，来改变人类使用数据的习惯。

浪潮：AI，AI，AI

2022 年底，随着 ChatGPT 的横空出世，通用化 AI 突然展现了巨大的能力，短短几个月使得全世界为之疯狂，大部分技术型创业公司如果没有和大模型相关的产品和战略，可能就得开始担忧自己是否会 AI 淘汰了。2023 年初，我和管理层分享过一个我的思考：It's not our game, but we have to be part of the game, and we need to build our own game. 我们身处技术发展的漩涡，大模型并非我们的战场，但 AI 最有可能帮助我们突出重围。

｜ It's not our game

这句话说的是基础大模型，这不是我们的 Game。工业级的大模型，需要三样能力：算法、数据和算力。算法其实不难，很多开源的大模型早就存在，近一年我们看到更多开源框架跑分也越来越好。那么壁垒主要就在数据和算力了。
微软的布局，使得 OpenAI（尤其是微软版本）能够访问过去互联网所有公开数据，以及微软多年积累的独特且私有的数据集，例如 MSDN、MSN、Office、LinkedIn、Github 等。在世界范围内几乎也是独一无二了，即使是 Google、Facebook 等企业也都不算是企业级数据集。这使得 OpenAI 能够学习的知识是独一无二的，这是一个几乎不可逾越的壁垒，除了微软，没有哪个公司拥有更多的互联网级别的企业级数据集了。

而算力，实实在在的“钞能力”，则是另一个无法逾越的壁垒。尤其是 OpenAI 使用 Azure 平台，不仅使得 ChatGPT 能够如此惊艳，Azure 平台也能够更好地提供大模型的云能力，再加上难搞到的 GPU，这里的壁垒高不可攀。
而这些，不是我们的领域。

｜ Be part of the game

革命性技术出现的时候，需要一些定力，没看清楚就冲上去，容易成为先烈。而我们其实从未停止 AI 这方面的思索和试验，从各个团队到非正式的兴趣小组，一直不断探索。我们也深知 Kyligence 必须参与这场革命，但在没有找到可以和 Kyligence 产品现有积累与优势有机结合的触点之前，我们选择待时而动，即使当时已经完成了 ZEN 对 OpenAI 的集成。有不少创业公司甚至一夜之间变成了“AI 公司”，但却讲不清楚 AI 与其产品的故事，这当然不是我们的选择。

那么，到底如何结合 Kyligence 产品优势与大模型的强大能力？如何规划一条别人难以复制的产品路线图？我们过去多年积累的，一方面是 OLAP 技术的深度，在性能、并发、自动化、安全、高可用等企业级能力方面，我们一直处于行业领先位置；另一方面，我们的客户群体，是中国最具商业价值的客群，以大型银行、保险公司、跨国公司、头部制造业、药企等为主，付费能力、付费意愿和合规性等都很高。我们的信心在于 Kyligence 有坚实的技术和用户基础。基于我们的优势，积极将 AI 能力引入以提升我们的产品和能力，用我们的方式参与这个 Game。

而如何将大模型能力结合进来，将是我们的 Game。

｜ Our game

Copilot in Kyligence Zen，是我们的答案。

Kyligence 从 2021 年开始战略转型，一直在往指标平台方向演进，以充分发挥我们在 OLAP 领域的积累。通过指标平台，我们向上支持用户直接充分使用到 Kyligence 的底层能力；向下延伸有强大的向量化计算底座作为支撑。随着 Zen 路线图的日益清晰，我们在指标平台这个领域取得了相当不错的进展，从客户项目的落地，到 Gartner 等权威报告等，都可以看到我们正引领着这个赛道。

同时，随着基于 OpenAI 的原型推出，统一的指标平台将是支撑 AI 在企业级数据和分析领域落地的基础。在和大量行业先锋客户交流后，他们一致的反馈是：Copilot 这一形式正是他们想要的、甚至急迫看到落地的 AI 在数据和分析领域的应用。

Copilot 是人机交互新方式，其使得普通人能够以自然语言的方式，来指挥计算机系统完成复杂、专业的工作。以前必须依赖专业团队（例如数据分析师、数据工程师等）完成的工作，现在完全可以由普通人+Copilot 来完成，大大降低了人类使用数据的门槛，也将改变人类使用数据的习惯。而指数级增长的用量和数据积累，则要求底层平台能够拥有强大的能力，同时以自动化、最低的成本来运行，而这些正好都是 Kyligence 长期积累的优势。

而此前朝着指标平台的及时转型，也为我们今天快速构建满足市场需求的 Copilot 奠定了基础。在既定的战略方向上，我们大大缩短了从早期市场进入主流市场的时间，加速跨越鸿沟。举个例子，假如说 OLAP 到指标平台是从 1 到 10 的改变，从普通汽车换成了跑车；而叠加了 Copilot 能力，则是增加了氮气加速器，直接从 10 拉到了 1000，已经是另一个数量级的变革。

使命：释放数智生产力

数智化转型的关键，是赋能每个人使用数据进行运营和决策。

当前经济形势严峻，全球企业尤其是中国企业，都在降本增效，都要求更精细化的运营，希望数据赋能到一线业务，每个人都能用数据来加速日常的业务流程和决策。帮助客户通过指标平台和 Copilot 赋能每一个员工，释放数智生产力，是我们一直以来的使命。数据与人工智能，必然能够大大提升生产效率，甚至进一步改善生产关系。

｜人机交互新模式

首先，Copilot 带来了人机交互模式的突破，自然语言能被理解、机器能够推理，从而达到了人和机器之间的和谐，这是 OpenAI 等大模型带来的颠覆式创新。

回到企业的日常作业或业务决策，往往需要获取来自多个系统的不同数据和指标。传统的报表和仪表盘模式，是难以让普通员工快速、简单使用的。在实践中，我们往往会听到业务的抱怨，为了获得 3 - 5 个指标，不得不在各个系统间切换，一级一级找到某个报表，摘出某个指标，然后再在另一个平台重复再重复，而业务使用数据的终点，永远都是在 Excel。

在过去的 3 年里，Kyligence 一直致力于构建统一的指标平台，而今天，通过 Kyligence Zen，无论大型企业还是中小型企业，普通员工都可以方便、快速地检索和使用指标，用户无需关心背后具体的系统、项目、报表，如果说 Cube 是对底层数据的索引，那 Zen 则是对业务指标的索引。

而基于 AI 的 Copilot，更使得这个能力有了指数级的提升。近一年里，我们看到 AI 已经可以完成各种语言理解、内容生成、自动转化等，几乎无需专业人员的参与，就能实现以往各种复杂的任务，这是人机交互的革命。

在数据分析领域，以往需要将需求描述给分析师，分析师再解释给数据工程师，再由数据工程师完成复杂的数据处理，这个模式已经被颠覆。通过自然语言，将需求描述给 Copilot，AI 能够准确理解意图，并转换为系统调用，基于系统结果，再进一步完成解释。以往需要几天、几周以及多个角色的复杂工作，在今天，只需要几句话，在几分钟甚至几秒钟内即可完成，这个改变非常的惊人。

而对于客户而言，他们正期待这样的交互能力，能够早日赋能到业务一线，让员工充分利用好数据，从而在激烈竞争的市场上，建立新的竞争壁垒。面对同样的问题，一个公司用 Copilot 即可快速利用数据完成决策、采取行动，而另一个公司可能还在提需求、拉数据、做报表，那结果不言而喻。

回到 Kyligence 的产品架构，Kyligence Enterprise 提供企业级 OLAP 能力，Kyligence Zen 构建统一指标平台，而 Kyligence Copilot 将提供基于大模型的 AI 能力，在 Copilot 里，企业可以充分调用指标推荐、分析、转换、归因等各种能力，同时还可内部使用和对外提供数据产品。

｜统一指标平台

基于 OpenAI（或者其他大模型能力）构建 Copilot 从技术上来讲并不难。然而，让 AI 能够在企业级客户落地，统一的指标平台是重要的先决条件。对于企业级用户，如果没有统一定义和标准的指标，如果指标不能被追溯和治理，容易产生“幻觉”的 AI 是无法被信任的。Kyligence Zen 提供的企业级指标平台能力，从指标目录，到指标定义、展现、归因、标签等，都是赋能 Copilot 的基础。

通过指标平台构建企业共同的数据语言（Common Data Language），再由 Copilot 完成普通用户的触达和赋能，让他们能够方便地和系统交互，一方面大大增加了业务用户使用指标的意愿，满足他们个性化的数据需求，同时也能大大减少数据分析师、BI 工程师、数据分析师等的投入。

｜ ZenML - 指标定义语言

Zen Metrics Language（ZenML）是 Zen 指标的定义语言，也将是指标定义的标准。

在大部分企业内，已经现存一批业务或者管理的指标，沉淀了多年积攒的业务逻辑、分析思路以及管理思想等。这些数字资产广泛存在于 BI、报表以及其他各种不同的系统中。如何更好地管理、复用和释放这里的潜力，是大部分组织面临的挑战，也是很多组织不愿意迁移的顾虑。而 ZenML 通过统一的语言和自动化的工具，能够帮助客户快速将已有数据资产迁移到指标平台，进一步释放数据的潜力。

ZenML 详细定义了指标的相关信息，基于 YAML 文件格式，得以在各个系统之间用同一种格式对数据和指标进行交互，并能够使用版本管理工具进行版本管理，解决指标定义历史的难题。将复杂的指标定义通过文件形式交互，这相比完全基于数据库定义指标的系统，带来了更开放的能力，使得用户可以非常方便的从其他系统中抽取并转义成 ZenML，也能支撑企业通过导出、导入功能和指标模版能力，在企业内外部复用或者迁移相关业务逻辑和数字资产，大大加速系统的上线时间。

｜高性能 & 高并发 OLAP

高性能是指标平台的刚性需求。瞬息万变的世界，用户不愿意花长时间去等待 AI “loading”，只有为业务用户提供快速的数据获取和分析能力，才能让组织在激烈的竞争中构建业务敏捷性以应对各种变化和挑战。

高并发是满足支持大规模/全量员工使用数据的基础。大量的业务用户涌入，将对系统的并发度有非常高的要求，一个国内企业，几万乃至几十万员工是正常的规模，为如此多的用户提供指标分析能力，高性能和高并发 OLAP 基座几乎是唯一的选择。传统的数据仓库架构一方面无法应对可能产生的高成本 SQL（比如笛卡尔积），从而影响整个系统的性能甚至宕机；另一方面，大规模的并发访问一向也是其弱点，在多个节点之间交换大量数据更容易导致系统崩溃。而高性能+高并发却一直是 Kyligence OLAP 的领先优势，通过分布式架构，在高性能和高并发场景上见长，在 AI 场景下，可以预见我们架构的优势也将进一步拉大。

Kyligence 多年来不断积累、打磨企业级 OLAP 引擎，经历了国内外各种规模、各种苛刻场景的考验，是当前行业内领先的系统。基于此推出的智能一站式指标平台 Kyligence Zen 和 AI 数智助理 Copilot 更实现了新的人和数据交互模式，也是我们脱颖而出的竞争壁垒和巨大优势。

沉潜蓄势，厚积而薄发，不鸣则已，一鸣则惊人！

｜数据产品 - 构建生态

Kyligence Copilot 将直接能够帮助用户创建各种数据产品，可视化、报表、仪表盘、Excel、看板等，都是 Kyligence Zen 中数据产品的能力，数据产品以更开放的形态，将指标和工作流、应用等结合起来，完成特定的业务逻辑或管理需求。同时，可插拔的架构也支持引入第三方，为客户提供各种基于数据和指标的能力，来不断丰富我们的生态和边界。

借助 AI 的能力，用户只需和 Copilot 进行对话，就能几秒创建一个仪表盘，这将大大提升数据和分析的效率，把大量的重复劳动转为 AI 去实现，真正提升生产力。

｜成本、成本、成本

赋能普通用户大规模使用数据最后的挑战一定是成本，组织需要在赋能更多人使用和相应成本之间衡量 ROI。随着数据湖、云计算等技术的迭代，今天使用大数据、数据仓库的成本已经越来越低。而我们所代表的 MOLAP 流派，一直以空间换时间的方式，为客户提供成本最优的解。考虑到 AWS S3 1TB 的费用不过几十美元一年，可以看到我们产品和架构，在大规模使用场景下的成本优势。

同时，我们的不断创新，我们的向量化 Spark 能力已经能够提升至少一倍的性能，也就是说在同样场景下，能够节省一半的资源，这对于绝大部分客户来说，都是一笔非常可观的费用节省。成本优化也将是我们长期的研究方向。

方法论：边使用边治理

数据仓库是一个专业且复杂的工程，没有合适的方法论，是无法顺利帮助客户实现价值的。

在过去，传统的数据仓库方法论，强调为决策层提供决策支持的能力（DSS，决策支持系统），其假设是决策只需要由管理层或少部分决策者进行，但数据必须精准（传统制造业确实只需要中高层完成决策即可）。同样因为技术的限制，即使是昂贵的硬件，也无法满足广泛的数据需求。从而在过去几十年，数据仓库领域一直遵循的是“先治理后使用”的方法论。组织建设数据仓库等系统是为了更好地利用数据进行决策，通常都会先找咨询公司等先把数据治理咨询做好，定义规范，最后再开始建立系统，周期往往需要6-9个月，甚至用年计算。

比如谈到指标，先要起个咨询项目来规划指标体系，明确每个指标的加工口径，然后才是考虑引入 IT 系统进行落地。但这种方式通常有几个问题：

咨询费时费力反且不讨好，管理层长时间看不到效果；
IT 很难牵头负责，业务部门配合困难，过程涉及数据主权、管理归属等，而业务部门没有动力去做牵头做这样的系统；
咨询项目的结果通常以固定的文档呈现，而指标定义和系统则是不断变化和发展的，遇到新的业务发展形态，还是会出现口径不一致的指标，所谓的治理永远是跟在业务后面“擦屁股”，费力且不讨好。

而现在，新的商业、经济模式、企业形态不断涌现，传统的数据仓库理论已经无法满足当前日益增长的人人用数需求。如 2021 年 Kyligence 用户大会提到：

数据已经无法全部集中化，必须通过连接的方式来访问全部内外部数据；
使用数据的人群从少数据决策者和分析师，转变成了一线人员、人人都需要使用数据；
从 Known 到 Unknown，大部分人是不知道组织有什么指标可以使用，也不知道如何使用，需要系统告诉他们发生了什么，如何解决等。

在和全球诸多大型客户多年的合作后，我们发现必须对数据仓库方法论进行创新和突破，新的技术和能力，也使得新的方法论成为可能。“边使用边治理”是我们的方法论，Kyligence 的 AI 增强引擎，则使得这种方法论得以实现。

将混乱转变为有序，即是治理。以往，治理需要专家，以及消耗非常多的资源和时间来完成，另一方面，以往的数据仓库极其昂贵，无法忍受混乱带来的冗余和浪费。而今天，以对象存储为核心的云计算模式，存储已经极其低廉，能够接受非常大程度的冗余，大大增加了个性化服务的可能性。而得益于技术的发展，尤其是 Kyligence 的 AI 增强引擎，能够自动化地从 SQL 历史和使用记录中，推荐出相关模型，从而自动化完成治理，大大降低了“治理”的难度。

通过“边使用边治理”模式，我们已经帮助各行各业的客户，在支持业务灵活性和系统良好治理之间，实现动态平衡。

结语：世界级软件公司

通过 Kyligence Copilot 带来的人机交互新模式，将使用数据的门槛降到了最低，数据和分析行业正在迎来巨大的变革。通过统一指标平台，使得基于 AI 的人和数据之间的交互得以轻松实现；通过高性能、高并发 OLAP 引擎和其他技术，使得能够支撑大规模的数据使用，实现人人用数，帮助我们的客户释放数智生产力，这是我们的使命。

成为一家世界级软件公司（👈点击查看原文），一直是我们的愿景。从创业伊始，我们就相信来自中国的技术，一定可以改变世界，一定可以被全世界的客户认可。在过去几年，我们已经赢得了大量的国际客户和国内客户，验证了我们的产品和技术。随着 Kyligence ZEN 和 Copilot 的推出，我们正实现“把简单留给用户，把复杂交给 AI”，更有信心进一步引领数据和分析行业。道阻且长，但充满了各种可能和荣耀，希望和各位同学一起，我们齐心协力，积跬步，智千里！

CEO Luke

2023-06-05

关于 Kyligence

跬智信息（Kyligence）由 Apache Kylin 创始团队于 2016 年创办，是领先的大数据分析和指标平台供应商，提供企业级 OLAP（多维分析）产品 Kyligence Enterprise 和智能一站式指标平台 Kyligence Zen，为用户提供企业级的经营分析能力、决策支持系统及各种基于数据驱动的行业解决方案。

Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售、医疗等行业客户，包括建设银行、平安银行、浦发银行、北京银行、宁波银行、太平洋保险、中国银联、上汽、长安汽车、星巴克、安踏、李宁、阿斯利康、UBS、MetLife 等全球知名企业，并和微软、亚马逊云科技、华为、安永、德勤等达成全球合作伙伴关系。Kyligence 获得来自红点、宽带资本、顺为资本、斯道资本、Coatue、浦银国际、中金资本、歌斐资产、国方资本等机构多次投资。

把简单留给用户，把复杂交给 AI

初心：聪明的神兽

浪潮：AI，AI，AI

｜ It's not our game

｜ Be part of the game

｜ Our game

使命：释放数智生产力

｜人机交互新模式

｜统一指标平台

｜ ZenML - 指标定义语言

｜高性能 & 高并发 OLAP

｜数据产品 - 构建生态

｜成本、成本、成本

方法论：边使用边治理

结语：世界级软件公司

关于 Kyligence

2025，再谈 AI 时代下数据语义层的价值

谁为 Data Agent “买单”？

服务手记丨国有大行如何在信创大数据平台上，跑通“全场景 OLAP ”？

攻略丨搭建属于自己的 DeepSeek，本地部署「手搓教程」在此！

码上时刻｜通过逻辑视图 Logic View 快速实现批流一体

头部银行 AI 落地实践｜数据应用赋能经营管理闭环

精准铺货、动态调整，指标平台让零售饮料企业掌握线下渠道主动权

头部房企｜数据驱动工程精细化运营，稳中提效

AI 驱动的企业数据文化：塑造未来业务智能与卓越决策

把简单留给用户，把复杂交给 AI

初心：聪明的神兽

浪潮：AI，AI，AI

｜ It's not our game

｜ Be part of the game

｜ Our game

使命：释放数智生产力

｜ 人机交互新模式

｜ 统一指标平台

｜ ZenML - 指标定义语言

｜ 高性能 & 高并发 OLAP

｜ 数据产品 - 构建生态

｜ 成本、成本、成本

方法论：边使用边治理

结语：世界级软件公司

关于 Kyligence

您可能会感兴趣

阅读下一篇

2025，再谈 AI 时代下数据语义层的价值

谁为 Data Agent “买单”？

服务手记丨国有大行如何在信创大数据平台上，跑通“全场景 OLAP ”？

攻略丨搭建属于自己的 DeepSeek，本地部署「手搓教程」在此！

码上时刻｜通过逻辑视图 Logic View 快速实现批流一体

头部银行 AI 落地实践｜数据应用赋能经营管理闭环

精准铺货、动态调整，指标平台让零售饮料企业掌握线下渠道主动权

头部房企｜数据驱动工程精细化运营，稳中提效

AI 驱动的企业数据文化：塑造未来业务智能与卓越决策

｜人机交互新模式

｜统一指标平台

｜高性能 & 高并发 OLAP

｜数据产品 - 构建生态

｜成本、成本、成本