Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
本文译自:The Citizen Data Analyst: The Pivotal Element in Analytics Success,作者:Prashanth Southekal
今天,每家公司都是数据公司,人人都是数据专家。不论您是信贷经理、会计师、销售、人事经理还是工程师,这都不影响您进行数据处理并从中洞察先机。正是因此,平民数据科学家(CDS)这一概念应运而生,各行业的从业者们正借助数据和分析模型来获取与其专业领域相关的洞察力。相对平民数据科学家(CDS),我们更倾向使用平民数据分析师(CDA)这种说法,因为在与数据的交互中,知识工作者所融入其中的不仅是科学,还有艺术。
根据 Gartner 的定义,“平民数据科学家是创建或生成模型的人,这些模型运用了先进的诊断分析、预测或说明功能。不过这些人的本职工作却是在统计和分析领域之外。”[Idoine,2018 年]
那么,平民数据分析师们如何能从数据和分析中获取决策洞察?又是哪些工具和特性赋能了他们?从根本上说,成功的平民数据分析师可以通过三大关键要素获取洞察并提高业务绩效:
这三大关键要素有希望满足现在日益复杂的数据分析需求,赋能业务用户,使其能根据自身需求获取关键答案。虽然每家公司或组织中平民数据分析师们的能力多样,但这并不妨碍我们找出一些通用的关键要素或解决方案。
首先,如何解决分析中的数据质量问题?高质量数据,是指我们需要有价值的、而非更多的数据来获取洞察。在数据分析领域,我们主要从以下三个方面来判断数据是否有价值:
正确的维度
数据分析是要通过已知数据找出对已知问题的答案和未知问题的预先洞察。洞察的获取则取决于反应(效果)和解释(原因)变量,也被称为特征或维度。维度的主要作用是限定诸如价格、数量和周期等业务相关度量的应用场景。
正确的数据结构
在企业通过业务收集的数据中,高达 80% 是非结构化数据,比如文档、视频、音频、图像等数据。大家都知道分析算法需要数据模型来对数据进行分析和处理,但由于这些非结构化数据中并没有预定义数据模型,企业难以充分利用这些数据和发挥它们的价值。
较少的变化
业务流程中不可避免的会存在一些变化,这种变化同样会反映在数据中。数据的变化使分析算法很难做出及时和准确的预测。
聊完数据质量的重要性,我们再来看看如何通过自助分析平台赋能平民数据分析师。如能拥有自助分析平台,业务人员将只需要极少的 IT 支持就能执行查询并获取结果。在平民数据分析师们的分析工作中,一个稳健的自助分析平台应提供如下核心功能:
数据加载
分析平台的价值取决于它的可用数据。因此,自助分析平台应能轻松对接现有数据源,无论是标准数据库(如数据仓库)还是记录系统(如 ERP 或 CRM)。不论数据源是部署在本地、云上还是混合云中,自助分析平台都能轻松管理数据索引(以实现高效搜索)、执行数据加载和刷新。
数据质量和及时性
数据的质量和及时性决定了洞察的有效和准确性。如存在根深蒂固的数据孤岛,这二者都很难保证。如果没有良好的数据质量,洞察和结论的真实性将无法保证。同样,如果没有足够及时的数据,那我们极可能会基于过去的数据对今天进行假设。
性能、规模及并发性
如果响应时间很长,或仪表盘处于长期无响应状态,那自助分析平台将无法使用。真正的平民数据分析师, 更希望能通过数据来跟踪和证明或反驳他们对所分析世界的理解和判断。他们应该能快速对数据进行探索并得到想要的数据。
数据安全
自助分析平台并不代表安全性的降低或完全没有安全性;安全管理是自助分析和平民数据分析师成功的先决条件。自助分析平台应支持通过 IDM(身份管理)和 RBAC(基于角色的访问控制)对平民数据分析师进行身份验证,以便控制和管理对敏感数据的访问,如 PCI DSS(支付卡行业数据安全标准)和 PII(个人身份信息)。
语义模型
分析结论的得出依赖于从各个系统中获取的数据。考虑到大家对数据元素的定义各不相同,我们迫切需要能通过语义或其他方式来表示数据的含义。语义模型描述了特定数据值之间的关系[Luisi, 2014]。因此,自助分析平台应该能为平民数据分析师提供统一的语义模型,从而建立一个单一的真实来源(SoT),以便获取准确、及时的洞察。
分析算法库
自助分析平台中应包含大量经时间验证的分析算法库,包括能访问如 TensorFlow、Keras、scikit-learn 等开源库。这样平民数据分析师将能轻松重用现有分析算法,而非从头构建自己的解决方案。
数据治理
最后,没有正确的数据治理,同样无法赋能平民数据分析师。平民数据分析师无疑很强大,但对他们的赋能同样需要一个强大的治理框架来管理。治理框架应能:
那么如何将高质量的业务数据、稳健的自助分析平台及强大的数据和分析治理流程组合在一起,成功赋能平民数据分析师呢?
Kyligence 以 Apache Kylin 为核心,通过安全的集成来自各数据源的数据为平民数据分析师提供了一个整体的分析平台,为其创建一个整合的、有价值的语义数据库,使其能获取近乎实时的强大洞察力。通过自动化数据发现、数据集成和提供低代码/无代码的分析库,Kyligence 为平民数据分析师带来了无缝及安全的数据洞察,进一步解放他们的生产力。
Kyligence 一直在提倡「数据分析平民化」这一理念。在大数据分析领域,Kyligence 所打造的自助分析平台获得了广泛的应用,收获了来自金融、零售、制造等行业的客户,接下来我们将简要介绍 Kyligence 的优势:
数据源
Kyligence 支持 Hadoop、RDBMS、数据仓库和数据湖等领先的数据平台,简化数据接入并实现多云部署。
数据质量
Kyligence 通过治理来自不同数据平台及 Kafka 等实时流数据平台的数据,产出高质量数据,从而能构建支持批数据源和实时数据源的混合分析模型。借助统一语义层,平民数据分析师可以获得标准的维度和度量定义,实现单一数据源。
高性能、高并发、大规模
Apache Kylin(分布式 OLAP)和 ClickHouse(MPP)的强强联手,更使得 Kyligence 在分析查询、明细查询或各类临时查询中都有非常高性能的表现。即便是面对极大数据集,平民数据分析师也能快速执行数据检索。
保障数据安全
Kyligence 可提供单元格级别的安全保护,控制后端数据访问,并使其对用户透明。除基于角色的访问控制外,Kylignece 还支持与 LDAP 和 Azure Active Directory 等用户管理系统集成以确保协作安全。
统一语义模型
Kyligence 强大的统一语义层功能,可为不同的 BI 团队打造统一的语义模型。当数据源架构改变时,Kyligence 中的数据模型会自适应演化,并让上层应用中的数据结构保持一致。
无缝集成 BI 工具,支持多种数据科学语言
Kyligence 提供标准的 ANSI-SQL 和 XMLA/MDX 接口,可轻松与现有分析工具(如 Tableau/Excel/PowerBI)集成,同时支持 Python 或 Scala 等数据科学语言,帮助用户轻松借助 TensorFlow、scikit-learn 等构建端到端的机器学习工作流。
自动简化数据治理流程
借助 Kyligence 语义层,每个数据模型都将会是一个受治理的数据集市,自动并简化数据治理流程,如审计和评级等。
在当今以数字和数据为中心的经济中,借助分析洞察数据并据此明智决策,将推动从数据到业务资产的转化。很遗憾,目前大多数的分析项目都侧重于通过集中的数据科学团队来提供业务洞察。从结果来看,超过 80% 的分析项目没能实现业务的增益 [Miranda, 2018]。这不仅延迟了对数据洞察的消费,还增加了将其转化为对应的业务决策的成本。
如果平民数据分析师能从数据和分析中获取洞察,这将能极大缩短周期时间、节省成本并提升公司或组织的客户服务能力,这才是对平民数据分析师赋能的未来。但如果希望这些平民数据分析师们能成功,那就要有一个像 Kyligence 这样能提供高质量的数据、强大的治理流程且易于使用的自助分析平台。
参考文章
1. Idoine, Carlie, "Citizen Data Scientists and Why They Matter", https://blogs.gartner.com/carlie-idoine/2018/05/13/citizen-data-scientists-and-why-they-matter/, 2018
2. Luisi, James, "Pragmatic Enterprise Architecture", Morgan Kaufmann, 2014
3. Miranda, Gloria Macías-Lizaso "Building an effective analytics organization", https://www.mckinsey.com/industries/financial-services/our-insights/building-an-effective-analytics-organization, 2018.
4. Southekal, Prashanth, "Analytics Best Practices", Technics Publications, 2020
关于作者
Dr.Prashanth Southekal,DBP-Institute 数据分析和指标公司的管理负责人。Southekal 先生先后为 P&G、GE、Shell、Apple 和 SAP 等 75 多个组织和机构提供咨询服务。Southekal 先生还是《Data for Business Performance》和《Analytics Best Practices》两本书的作者,并经常为福布斯网站及 CFO University 撰写有关数据、分析及机器学习方面的专题稿件。他在卡尔加里大学(加拿大卡尔加里)和 IE 商学院(西班牙马德里)担任数据分析课程的客座教授,目前在全球已经教授了超过 2,500 名学生。Southekal 先生拥有法国里尔商学院的博士学位和美国凯洛格管理学院的 MBA 学位。
关于 Kyligence
Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。基于机器学习和 AI 技术,Kyligence 从多云的数据存储中识别和管理最有价值数据,并提供高性能、高并发的数据服务以支撑各种数据分析与应用,同时不断降低 TCO。Kyligence 已服务中国、美国及亚太的多个金融、制造、零售等客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。公司已通过 ISO9001,ISO27001 及 SOC2 Type1 等各项认证及审计,并在全球范围内拥有众多生态合作伙伴。
Kyligence MDX 支持创建层级结构。层级结构是基于维度的级别集合,可以显著提升数据分析人员的分析能力。此外,Kyligence MDX 还支持对指定的层级指定权重,方便您自定义成员值的汇总方式。
当订单与销售明细在不同的事实表,千笔订单商品数量如何计算?Kyligence Cloud + Kyligence MDX 三步实现跨事实表分析,带你利用数据更准确地洞察经营状态,如对比不同门店的同期销售状况!
数据分析日益增长的多样化需求 信息化时代之初,由于大部分员工缺乏大数据相关的技能和培训,分析和解释数据的话语权
数据网格(Data Mesh)是由 Thoughtworks 提出的一种数据域驱动的分析架构,其中数据被视为一
当前,云上部署正逐渐成为全球众多企业 IT 部署模式的新选择。而在国内,由于国家的监管需求,一些行业数据仍然被
1. Hadoop 知多少 对于大数据玩家而言,Hadoop 绝不陌生。Apache Hadoop 作为一个完
现代企业愈发需要利用海量数据的价值进行量化运营、辅助决策洞察,在线联机分析 OLAP(Online
Kylin 入选《上海市重点领域(金融类)“十四五”紧缺人才开发目录》 数字经济已成为全球增长新动
前言 大家都知道,数据分析项目从需求提出到最终交付要经历一个漫长的过程,需要进行数据源整合、指标定义、模型开发
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持