数据管理的尽头也是“大模型”？人人用数的时代来了

“业务侧日常提的数据需求实在太多了！有时只是想搞清楚一个简单的问题，就要整出大量的报表。”在日前举办的2023 Kyligence 用户大会的场外，偶然听到一位参会者抛出了这样一个“烦恼”。

而恰恰就是在这次大会上，他或许已经找到了解决这个问题的答案。

这位参会者的烦恼并不是个例。企业数字化转型的核心要素在于数据，没有数据的数字化犹如无根之萍。但数据的管理和使用问题，却困扰着几乎每一个企业。

首先，绝大多数企业过去的系统都依部门而建，公司内系统林立，但彼此之间相互割裂，数据孤岛严重。这导致的问题是，对于业务负责人来说，想跨部门查看和获取数据，难度极大、效率极低；对于企业管理者来说，想要拿到全局、多维度的数据不仅同样困难，并且由于不同部门的数据统计口径差异，数据准确性和一致性也很难保障。

其次，虽然系统中记录了海量数据，但绝大多数都是非实时数据，管理者基于这些数据参考而做出的决策相对滞后，很可能并不适用于当下企业的现状。

虽然随着数字化转型的推进，这些问题正在被逐一化解，打破数据孤岛，形成实时、统一的数据平台已经成为大多数企业的“标配”做法。然而，新的问题来了。

数字化强化了员工的数据意识，同时数据使用的壁垒被打破，这时候，数据管理的难度值和投入值都将持续飙升。虽然人人手里都“有数”，但“用数”还是困难重重。如同开头那位参会者所表达的，数据使用需求如海水漫灌一拥而上，不但压力直接给到了数据部门或者技术部门，管理者、运营者和业务人员的数据使用体验及效率也不好。

针对这个问题，Kyligence 在大会上给出了它的新“解法”——发布 Kyligence Copilot AI 数智助理（预览版），帮助企业用自然语言交互的方式进行数据分析，运行 KPI 评估等工作，实现“人人用数”。

直接和 AI 对话，数据使用和分析不再需要“中间人”

“进入 AI 时代，我们发现人机交互的方式已经完全发生变化。”Kyligence 联合创始人兼 CEO 韩卿在大会演讲中表示。于是，Kyligence 也萌生了通过 AI 改变人们使用数据的交互方式。大概在今年春节前后至今，花了数月时间进行技术研发，Kyligence Copilot 首度面世。

据他介绍，Kyligence Copilot 背后基于的是 Open AI 等大模型，结合大语言模型能力，用户只需要使用自然语言对话，就可以更轻松并且更高效地对数据进行自动化检索、筛选、分析和排序指标，并且，还能根据上下文智能地进行推荐和总结，快捷创建仪表盘等等。

比如，当用户提交了“查看某业务一周的利润率”的需求时，Kyligence Copilot 会经过 AI 自主学习和推断给出三个信息：一是该业务在当周的增效和降本目标分别做得怎么样；二是其中高风险目标有哪些；三是针对以上两点给出对应的建议。

针对这一系列信息，用户还可以进一步提问，比如“为什么最近原材料损耗出现增长”。这时候，Kyligence Copilot 同样会进一步给出解答。“这是在企业经营管理过程中非常自然的对话，在每一个问题的背后是非常复杂的流程和交付问题。”韩卿强调，“在这个过程中，决策者、业务人员、管理者自己就可以跟 AI 进行对话，AI 可以引导我们做进一步的分析，中间不再需要人工的干预。 ”

换句话说，通过这样的零门槛数据工具，不但业务相关人员使用数据的效率会大大提升，同时，企业管理者和运营人员还能从数据视角深入理解业务现状，包括关注指标波动趋势并开展归因分析，以及通过自主问答掌握业务目标背后的数据事实。除此之外，Kyligence Copilot 还能够根据数据洞察结论向运营人员提出建议。

在会上，韩卿进行了一系列的操作演示。他总结道，Kyligence Copilot 的价值在于，能够“以 AI 变革组织运营与管理”，而这背后包含了三点深意：第一，以 AI 提升分析效率，释放所有人的潜力；第二，以 AI 赋能运营，释放管理的潜力；第三，以 AI 加强协同，释放组织的潜力。

扫除“数据语言”障碍

值得一提的是，针对组织协同，Kyligence 解决了企业普遍面临的数据治理难题——可以实现“边使用、边治理”，而不必等数据治理工作完全做完才能去做智能分析。

Kyligence Copilot 的背后，是Kyligence Zen 指标平台，该平台能以管理目标的方式管理指标，统一管理企业指标口径，将数据工具提升到业务层面，促进更广泛的数据协作与共享。

“我想以什么方式、看什么指标，只要告诉 AI，它就能帮我把所有数据呈现出来，通过这个方式，还能进一步指导背后的数据治理，持续地完善数据体系。”韩卿表示。

Kyligence 联合创始人兼 CTO 李扬用通用语言在人类交流过程中的作用类比数据指标体系的价值，“当每个人都试图用数据进行协作沟通，遇到的第一个阻碍就是‘统一语言’的问题，就像是普通话的普及让我们能够自由沟通一样，数据也需要一个标准一致的口径，而指标体系，就是数据的‘统一语言’。”

不同于传统的数据分析链路，指标平台能把原本分散固化在 BI 报表/ ETL 宽表和各个业务系统中的指标抽取出来，指标的业务口径和计算逻辑等都统一管理在指标目录中。Kyligence Zen 是 Kyligence 去年推出的一站式指标平台，主要提供业务模型、指标管理、指标加工、数据服务等服务。

在这个过程中，Kyligence 提供的是通用式的标准化服务，那么，在面对不同行业差异巨大的数据指标体系需求时如何满足呢？李扬向 InfoQ 记者解释，针对个性化需求 Kyligence 会通过与行业合作伙伴的共建，沉淀行业指标模版。

举例来说，Kyligence 与平安银行共建了潘多拉指标平台，该平台以业务场景为驱动，提供了 AI+BI+内容的基础能力，并结合组件化开放平台，可以为银行亿级数据量级下多维分析提供了完整的解决方案，解决了银行机构以往数据开发周期长、数据口径杂、数据获取难、查询响应慢等痛点。

“每一个企业或者行业合作伙伴，他们都可以在 Kyligence 通用的平台上建立行业的指标体系，我们提供给大家的是像乐高积木的一样能力。”李扬强调。

不谈成本投入的性能提升都是“耍流氓”

通过底层的数据指标体系，加上 AI 数智助理结合，企业数据管理和使用的难题被解决了一大半，但仍然还不是全部。另一个让企业头疼的问题是——成本。

“当人人开始用数，沟通障碍也被指标体系解除，我们认为，分析计算引擎的负载，可能会有百倍乃至千倍的增加。”李扬指出。在他看来，谈成本投入的性能提升都是“耍流氓”，而作为承载指标体系的企业级高性能 OLAP（多维分析）引擎，Kyligence Enterprise 也被视为是 Kyligence 的技术“护城河”。

据介绍，Kyligence 引入了一系列创新技术。比如，使用多轮模型建模方法收拢用户的发散指标，举例来说，某个企业中数百个指标，可以收拢到多轮模型中变成几十个预计算点，从而降低计算的复杂度。

此外，据韩卿透露，Kyligence 还即将推出向量化的 Spark 引擎——Kyligence Turbo。对比原生 Spark，在同等硬件资源基础上，可以支持 2 倍以上的工作负载，耗时下降超过 50%。目前，该产品已经在金融行业生产系统进行了验证。

“其实这个技术也不是新萌，只不过产品化即将到来。最早，我们在 2022 年和 Intel 一起公布了 Gluten 的新技术，本质上就是把向量化的执行引擎植入到 Spark 当中。现在企业中绝大部分的算力都可能跑在 ETL 上，而 ETL 中 90%都使用 Spark，或者是 Spark 兼容的 Hive 等技术。如果这个算力或者成本有 50%的节省，将是非常大的降本增效空间。”李扬进一步解释。

数据安全问题避无可避

如此看来，Kyligence 的产品矩阵布局已经非常清晰——底层是企业级 OLAP 平台 Kyligence Enterprise，中间是指标平台 Kyligence Zen，上层是这次大会重磅发布的 AI 数智助理 Kyligence Copilot 。

用李扬的话说，于 Kyligence 而言，Kyligence Copilot 的问世算是拧上了最上面的那个“瓶盖”。

但是，数据管理和应用的话题谈到最后还有一个避无可避的课题，即“数据安全”。对此，李扬进一步做了介绍。

首先，就指标平台 Kyligence Zen 这一产品来看，其 SaaS 版本中的数据访问、数据存储、计算资源等等都是根据组织进行隔离的。并且，无论是数据传输、读取还是存储，全程都进行严格加密，所有针对生产环境的访问都有特定流程确保审计和留痕审查。

与此同时，Kyligence 也将在本月提供 Zen 的本地部署方案。在此基础上，当需要调用 Copilot 服务时，具体做法是把大语言模型迁移到企业私有环境中。

“当然，很多人还会问，ChatGPT 代表了行业高水平，如果在落地中使用一个替代模型，语言理解能力会不会比较弱？”李扬表示，“针对这个问题，我们的思路是把 Copilot 拆解成几个语言行为，在每个局部范围的语言行为上，可能就不需要那么强大和完善的通用语言能力。”

举例来说，当用户对 Kyligence Copilot 发出某一指令，后续的对话执行会分为三步：第一，提问审查，判断用户的问题是否合法合规，是否属于其工作范畴；第二，指令理解，即把用户请求映射理解成一个指标平台的具体动作，由指标平台具体执行，可能是归因分析，或者目标看板解读等等，在这个步骤，用户拿到的只是数据；第三，结合语言模型，把数据、图表等信息进行自然语言的解读，观点鲜明地呈现给用户。

“在这背后，我们其实就是使用三个局部小模型来替代一个通用大模型，从而形成更为可靠且可行的方案。当然，如果有一个大模型能够同时完成三个任务也可以，有的企业会自己采购大语言模型，对于这些大模型，我们也可以进行对接。”

“我们希望把 Kyligence Copilot 嵌入到企业的应用和数据系统中去，让企业应用可以在最快的时间里拥有 AI 的能力。”李扬表示。

本文转载自：InfoQ；作者：高玉娴

数据管理的尽头也是“大模型”？人人用数的时代来了

扫除“数据语言”障碍

不谈成本投入的性能提升都是“耍流氓”

数据安全问题避无可避

汽车制造企业如何最大化数据资产价值？

如何避免数据湖变成数据沼泽

从东数西算，漫谈数字化时代的变局

揭秘语义层｜如何让人人都能看懂数据？

智能数据赋能全球金融机构数字化转型

Kyligence + 亚马逊云科技丨实现云上的精细化运营和数字化指挥

指标平台哪家强？看 Kyligence 助力平安银行打造统一指标平台

关于语义层，你不得不了解的二三事

一文读懂企业如何进行数据资产服务平台转型

数据管理的尽头也是“大模型”？人人用数的时代来了

扫除“数据语言”障碍

不谈成本投入的性能提升都是“耍流氓”

数据安全问题避无可避

您可能会感兴趣

阅读下一篇

汽车制造企业如何最大化数据资产价值？

如何避免数据湖变成数据沼泽

从东数西算，漫谈数字化时代的变局

揭秘语义层｜如何让人人都能看懂数据？

智能数据赋能全球金融机构数字化转型

Kyligence + 亚马逊云科技丨实现云上的精细化运营和数字化指挥

指标平台哪家强？看 Kyligence 助力平安银行打造统一指标平台

关于语义层，你不得不了解的二三事

一文读懂企业如何进行数据资产服务平台转型