博客 > 技术博客

通往数据分析平民化的成功之路

Dr.Southekal

2021年 11月 12日

本文译自：The Citizen Data Analyst: The Pivotal Element in Analytics Success，作者：Prashanth Southekal

今天，每家公司都是数据公司，人人都是数据专家。不论您是信贷经理、会计师、销售、人事经理还是工程师，这都不影响您进行数据处理并从中洞察先机。正是因此，平民数据科学家（CDS）这一概念应运而生，各行业的从业者们正借助数据和分析模型来获取与其专业领域相关的洞察力。相对平民数据科学家（CDS），我们更倾向使用平民数据分析师（CDA）这种说法，因为在与数据的交互中，知识工作者所融入其中的不仅是科学，还有艺术。

根据 Gartner 的定义，“平民数据科学家是创建或生成模型的人，这些模型运用了先进的诊断分析、预测或说明功能。不过这些人的本职工作却是在统计和分析领域之外。”[Idoine，2018 年]

那么，平民数据分析师们如何能从数据和分析中获取决策洞察？又是哪些工具和特性赋能了他们？从根本上说，成功的平民数据分析师可以通过三大关键要素获取洞察并提高业务绩效：

高质量的业务数据
稳健的自助分析平台
强大的数据和分析治理流程

这三大关键要素有希望满足现在日益复杂的数据分析需求，赋能业务用户，使其能根据自身需求获取关键答案。虽然每家公司或组织中平民数据分析师们的能力多样，但这并不妨碍我们找出一些通用的关键要素或解决方案。

关注数据本身

首先，如何解决分析中的数据质量问题？高质量数据，是指我们需要有价值的、而非更多的数据来获取洞察。在数据分析领域，我们主要从以下三个方面来判断数据是否有价值：

正确的维度

数据分析是要通过已知数据找出对已知问题的答案和未知问题的预先洞察。洞察的获取则取决于反应（效果）和解释（原因）变量，也被称为特征或维度。维度的主要作用是限定诸如价格、数量和周期等业务相关度量的应用场景。

正确的数据结构

在企业通过业务收集的数据中，高达 80% 是非结构化数据，比如文档、视频、音频、图像等数据。大家都知道分析算法需要数据模型来对数据进行分析和处理，但由于这些非结构化数据中并没有预定义数据模型，企业难以充分利用这些数据和发挥它们的价值。

较少的变化

业务流程中不可避免的会存在一些变化，这种变化同样会反映在数据中。数据的变化使分析算法很难做出及时和准确的预测。

自助式分析平台

聊完数据质量的重要性，我们再来看看如何通过自助分析平台赋能平民数据分析师。如能拥有自助分析平台，业务人员将只需要极少的 IT 支持就能执行查询并获取结果。在平民数据分析师们的分析工作中，一个稳健的自助分析平台应提供如下核心功能：

数据加载

分析平台的价值取决于它的可用数据。因此，自助分析平台应能轻松对接现有数据源，无论是标准数据库（如数据仓库）还是记录系统（如 ERP 或 CRM）。不论数据源是部署在本地、云上还是混合云中，自助分析平台都能轻松管理数据索引（以实现高效搜索）、执行数据加载和刷新。

数据质量和及时性

数据的质量和及时性决定了洞察的有效和准确性。如存在根深蒂固的数据孤岛，这二者都很难保证。如果没有良好的数据质量，洞察和结论的真实性将无法保证。同样，如果没有足够及时的数据，那我们极可能会基于过去的数据对今天进行假设。

性能、规模及并发性

如果响应时间很长，或仪表盘处于长期无响应状态，那自助分析平台将无法使用。真正的平民数据分析师，更希望能通过数据来跟踪和证明或反驳他们对所分析世界的理解和判断。他们应该能快速对数据进行探索并得到想要的数据。

数据安全

自助分析平台并不代表安全性的降低或完全没有安全性；安全管理是自助分析和平民数据分析师成功的先决条件。自助分析平台应支持通过 IDM（身份管理）和 RBAC（基于角色的访问控制）对平民数据分析师进行身份验证，以便控制和管理对敏感数据的访问，如 PCI DSS（支付卡行业数据安全标准）和 PII（个人身份信息）。

语义模型

分析结论的得出依赖于从各个系统中获取的数据。考虑到大家对数据元素的定义各不相同，我们迫切需要能通过语义或其他方式来表示数据的含义。语义模型描述了特定数据值之间的关系[Luisi, 2014]。因此，自助分析平台应该能为平民数据分析师提供统一的语义模型，从而建立一个单一的真实来源（SoT），以便获取准确、及时的洞察。

分析算法库

自助分析平台中应包含大量经时间验证的分析算法库，包括能访问如 TensorFlow、Keras、scikit-learn 等开源库。这样平民数据分析师将能轻松重用现有分析算法，而非从头构建自己的解决方案。

数据治理

最后，没有正确的数据治理，同样无法赋能平民数据分析师。平民数据分析师无疑很强大，但对他们的赋能同样需要一个强大的治理框架来管理。治理框架应能：

明确数据所有权
角色评估
数据素养培训
优化查询
预计算结果
标记未使用的报告和仪表板
监控系统性能
其他监管和数据管理活动

那么如何将高质量的业务数据、稳健的自助分析平台及强大的数据和分析治理流程组合在一起，成功赋能平民数据分析师呢？

Kyligence 以 Apache Kylin 为核心，通过安全的集成来自各数据源的数据为平民数据分析师提供了一个整体的分析平台，为其创建一个整合的、有价值的语义数据库，使其能获取近乎实时的强大洞察力。通过自动化数据发现、数据集成和提供低代码/无代码的分析库，Kyligence 为平民数据分析师带来了无缝及安全的数据洞察，进一步解放他们的生产力。

Kyligence 和数据分析平民化

Kyligence 一直在提倡「数据分析平民化」这一理念。在大数据分析领域，Kyligence 所打造的自助分析平台获得了广泛的应用，收获了来自金融、零售、制造等行业的客户，接下来我们将简要介绍 Kyligence 的优势：

数据源

Kyligence 支持 Hadoop、RDBMS、数据仓库和数据湖等领先的数据平台，简化数据接入并实现多云部署。

数据质量

Kyligence 通过治理来自不同数据平台及 Kafka 等实时流数据平台的数据，产出高质量数据，从而能构建支持批数据源和实时数据源的混合分析模型。借助统一语义层，平民数据分析师可以获得标准的维度和度量定义，实现单一数据源。

高性能、高并发、大规模

Apache Kylin（分布式 OLAP）和 ClickHouse（MPP）的强强联手，更使得 Kyligence 在分析查询、明细查询或各类临时查询中都有非常高性能的表现。即便是面对极大数据集，平民数据分析师也能快速执行数据检索。

保障数据安全

Kyligence 可提供单元格级别的安全保护，控制后端数据访问，并使其对用户透明。除基于角色的访问控制外，Kylignece 还支持与 LDAP 和 Azure Active Directory 等用户管理系统集成以确保协作安全。

统一语义模型

Kyligence 强大的统一语义层功能，可为不同的 BI 团队打造统一的语义模型。当数据源架构改变时，Kyligence 中的数据模型会自适应演化，并让上层应用中的数据结构保持一致。

无缝集成 BI 工具，支持多种数据科学语言

Kyligence 提供标准的 ANSI-SQL 和 XMLA/MDX 接口，可轻松与现有分析工具（如 Tableau/Excel/PowerBI）集成，同时支持 Python 或 Scala 等数据科学语言，帮助用户轻松借助 TensorFlow、scikit-learn 等构建端到端的机器学习工作流。

自动简化数据治理流程

借助 Kyligence 语义层，每个数据模型都将会是一个受治理的数据集市，自动并简化数据治理流程，如审计和评级等。

审计：由于数据模型是用户使用的最小单元，管理员可以轻松跟踪每个模型的使用情况；
评级：Kyligence 管理员可以查看每个模型的大小、数据的使用率与存储空间之比，识别最热数据模型，这些模型也正是企业最有价值的资产；
数据生命周期：轻松管理对数据模型的生命周期类操作，如创建、提取、刷新、合并等；
Kyligence 内置的 AI 增强引擎将提供更有价值的索引构建建议、检测无效索引并建议删除、从而降低存储及计算资源的成本。

结语

在当今以数字和数据为中心的经济中，借助分析洞察数据并据此明智决策，将推动从数据到业务资产的转化。很遗憾，目前大多数的分析项目都侧重于通过集中的数据科学团队来提供业务洞察。从结果来看，超过 80% 的分析项目没能实现业务的增益 [Miranda, 2018]。这不仅延迟了对数据洞察的消费，还增加了将其转化为对应的业务决策的成本。

如果平民数据分析师能从数据和分析中获取洞察，这将能极大缩短周期时间、节省成本并提升公司或组织的客户服务能力，这才是对平民数据分析师赋能的未来。但如果希望这些平民数据分析师们能成功，那就要有一个像 Kyligence 这样能提供高质量的数据、强大的治理流程且易于使用的自助分析平台。

参考文章

1. Idoine, Carlie, "Citizen Data Scientists and Why They Matter", https://blogs.gartner.com/carlie-idoine/2018/05/13/citizen-data-scientists-and-why-they-matter/, 2018

2. Luisi, James, "Pragmatic Enterprise Architecture", Morgan Kaufmann, 2014

3. Miranda, Gloria Macías-Lizaso "Building an effective analytics organization", https://www.mckinsey.com/industries/financial-services/our-insights/building-an-effective-analytics-organization, 2018.

4. Southekal, Prashanth, "Analytics Best Practices", Technics Publications, 2020

关于作者

Dr.Prashanth Southekal，DBP-Institute 数据分析和指标公司的管理负责人。Southekal 先生先后为 P&G、GE、Shell、Apple 和 SAP 等 75 多个组织和机构提供咨询服务。Southekal 先生还是《Data for Business Performance》和《Analytics Best Practices》两本书的作者，并经常为福布斯网站及 CFO University 撰写有关数据、分析及机器学习方面的专题稿件。他在卡尔加里大学（加拿大卡尔加里）和 IE 商学院（西班牙马德里）担任数据分析课程的客座教授，目前在全球已经教授了超过 2,500 名学生。Southekal 先生拥有法国里尔商学院的博士学位和美国凯洛格管理学院的 MBA 学位。

关于 Kyligence

Kyligence 由 Apache Kylin 创始团队创建，致力于打造下一代智能数据云平台，为企业实现自动化的数据服务和管理。基于机器学习和 AI 技术，Kyligence 从多云的数据存储中识别和管理最有价值数据，并提供高性能、高并发的数据服务以支撑各种数据分析与应用，同时不断降低 TCO。Kyligence 已服务中国、美国及亚太的多个金融、制造、零售等客户，包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。公司已通过 ISO9001，ISO27001 及 SOC2 Type1 等各项认证及审计，并在全球范围内拥有众多生态合作伙伴。