Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多

【数据分析师养成记】谁将举起大力神杯?分析师的世界杯竞猜小讲堂

高远
2018年 7月 12日

前言

夏日的热浪裹挟着蝉鸣滚滚而来,但今年的盛夏格外不同。世界各地无数人涂着迷彩、穿着球衣、端着啤酒、呐喊着庆祝四年一度的足球盛事——世界杯。这一个多月以来关于谁将捧起大力神杯的竞猜也是精彩纷呈。如何在世界杯每场对决中都对双方球队保持一定了解,或者对结果进行一定的猜测呢?让 Kyligence 的数据分析师教你打造自己的分析策略。

企业福利统计的报告中往往会展示不同企业甚至行业的平均薪酬,但在数据离散程度很大的时候,平均数并不能反映薪酬数据的中心。比如,某家公司正在进行工资统计,选取四个人,他们的年薪分别为10万、11万、12万和13万,此时这四个人的年薪平均数为11.5万。如果在这四个人中加入一位该公司的高管,年薪为100万,此时这五个人的年薪平均数为29.2万。但是显然,29.2万高于五个人中四个人的年薪,它不是这组数据的中心。

那如何摒除数据的离散带来的对数据中心的定位错误呢?选取中位数¹是一个较好的办法。在上例中,中位数为12万元年薪,显然这个数字更能展现出这组数据的中心情况。

对于一组数据来说,分位数代表着某个百分位点上的数值,中位数是一种常用的分位数。例如在一个考试中,同学A考了70分,这个分数高于班内60%的同学,则60%分位数就是70。通俗地说,当知道某个百分位点的分位数时,这个分位数比这组数据中所有位于该百分位点以下的数值都要大。因为拥有这样的特性,所以分位数可以成许多分析中的参考指标,用于查看数据的分布情况。

比如在社会责任投资决策中,ESG 指数是环境(Environment)、社会责任(Social Responsibility)以及公司治理(Corporate Governance)这三个因素的简称。通常而言,ESG表现更好的企业,在其他条件等同的情境下更利于可持续发展,也更受到投资者的欢迎,一些容易造成环境污染的企业相对而言会获得更低的评分。有趣的是,国际著名烟草品牌英美烟草公司(British American Tobacco)在雅虎金融(Yahoo Finance)上披露的最新 ESG 指数分别为72,60和55,而华特迪士尼公司(The Walt Disney Company)为66,62和67,也就是说在环境一项上英美烟草公司比华特迪士尼公司表现更好,这与传统观念略有出入,说明英美烟草公司确实是在环境友好方面做出了非常大的努力。

左图为迪士尼的ESG指数在46家同类公司中的情况,右图为英美烟草公司的ESG在91家同类公司中的情况,黄色箭头表示行业中位数位置,蓝点分别表示迪士尼和英美烟草两家公司。

Kyligence Enterprise 是 Kyligence 基于 Hadoop 的企业级智能大数据分析平台,通过为业务分析师、数据科学家和 IT 工程师提供了统一的分析平台, 支持 无需编程的 快速建模,与主流 BI 工具实现 无缝集成。Kyligence Enterprise 中内置了分位数函数 Percentile_approx,通过预计算提供亚秒级查询响应。

Kyligence Enterprise 服务了金融、电信等诸多行业的头部企业,提升大数据分析效率,释放大数据生产力。比如,某知名的手机制造企业大数据团队表示:“在进行手机耗电量分析时,需要了解不同用电量的人群比例。在采用 Kyligence Enterprise 之前,为了将用户按照用电量百分比划分,该大数据团队总是需要写大量复杂SQL,并不断叠加和汇总结果:比如建临时表将用户耗电量排名,手动按10% 对用户进行划分,分别获得每10% 分位的用户数量。为了这一个指标,数据准备就需要一个团队耗费数小时。使用了 Kyligence Entperirse 后,从准备数据到可以查询,只需要不到20分钟。”

回到开头的例子,通过查看各支国家队所含球员的评分(评分由https://www.sofifa.com/提供,分数以1分为分隔,范围是0到100分,评分综合了进攻、技巧、力量、防守等几十项指标),可以计算不同国家队的球员水平位于所有参赛队伍中的位置。

各个国家队队员的评分中位数适合用来查看各支队伍的平均水平,并且该平均水平不会被球队中可能存在的评分较为极端的球员而影响。在 Kyligence Enteprise 中使用相应数据构建 Cube, 使用 Percentile_approx 函数进行计算。

查询如下:select NATIONALITY, percentile_approx(PERCENTILE_DATA.OVERALL,0.5) as score_50 from PERCENTILE_DATA group by NATIONALITY 

以国家为聚合组,计算不同国家的球员评分中位数,只需要0.26秒就可以得到:

以下为完整的查询结果集

西班牙、巴西、德国和比利时的球员评分中位数均为86分,是所有参赛队伍中最高的,说明这几支队伍球员的平均水平较高,而巴拿马队员的68分为最低。进一步查看队伍中的高评分球员情况,查看90%分位数的球员评分:

 查询如下:select NATIONALITY, percentile_approx(PERCENTILE_DATA.OVERALL,0.9) as score_90 from PERCENTILE_DATA group by NATIONALITY

以下为完整的查询结果集

西班牙、阿根廷和德国以90分位于前三,所以这三支国家队有 TOP10% 的球员具有90分以上的评分。有超过半数的球队中,90% 分位数的球员位于80分及以上,说明他们都有1到2名球员有着80以上的评分,而巴拿马队的高分情况也和均分一样不太尽如人意。

每支队伍的球员实力均衡情况也可以通过分位数来查看,利用四分位距²就可以判断评分是否分散,四分位距越大说明球员评分差距越大,意味着同一个队伍中球员的水平相差越大,反之球员评分只在一个小范围内浮动。

查询如下:select NATIONALITY,(percentile_approx(PERCENTILE_DATA.OVERALL,0.75)-percentile_approx(PERCENTILE_DATA.OVERALL,0.25)) as IQR from PERCENTILE_DATA group by NATIONALITY

以下为完整的查询结果集

西班牙队的球员评分四分位距最小,仅有1.5,说明在25%到75%这个水平的球员最高评分和最低评分之差仅为1.5。乌拉圭队的评分差距最大,说明球员评分较为分散,高分球员和低分球员差距较大。差距越大,可以认为队伍表现越不稳定,比赛的时候变数也更大。

世界杯和数学之间存在着奇妙的兼容性,通过分位数计算可以查看比较各个国家的球员水平,也可以看到各个球队在历年世界杯中的进球情况。本届世界杯的四强已经产生,分别是法国、比利时、英格兰和克罗地亚,虽然德国、巴西等传统强队被淘汰有一些出乎意料,但是这四支队伍也绝不可被小看。其中法国队历史进球高达37个,平均评分达到83分,不知道它可不可以对得起自己过去的努力和荣耀,获得世界杯冠军呢?

结语

分位数多用于描述性统计,帮助分析师确定数据中心、筛出异常值、查看数据分散程度等。25%、50%和75%分位数:这三个分位数被称为四分位数,其中50%分位数又被称为中位数。四分位数往往代表了数据的离散程度,75%分位数与25%分位数的差称为四分位距,两者差距越大,说明数据的离散程度越大。中位数的含义和作用在前文已经阐述过,此处不做赘述。

5%和95%分位数:当数据偶然之间出现了部分异常值,例如数值突然拔高或是降低,通过5%和95%分位数可以将这样的异常值选出并且去除。这两个分位数较多应用在汽车设计和校核中,通过选取满足不同人身材标准的假人来进行设计,以95%假人(指有95%的成年男子的体重和座高等参数比该假人低)为上限,以5%假人(指有5%的成年女子的体重和座高等参数比该假人低)为下限,保证设计结果可以满足90%的使用对象。

Kyligence Enterprise 提供了基于海量数据的 Percentile_approx(分位数)函数计算,通过预计算提供亚秒级查询响应。之后还会针对更多统计函数推出实例介绍和使用展示,敬请期待。

注释:¹:50%位置的分位数;

            ²:75%分位数和25%分位数的差

添加企微

kyligence
关注我们

kyligence