Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
此次的新型冠状病毒肺炎对我们所有人都带来了巨大影响,这种影响既因为病毒的高传染性威胁到了每个人的健康,也因为在大数据时代,各种纷繁复杂的疫情数据扑面而来(比如卫健委公布的诊断数据,各运营商、头部社交媒体等平台发布的位置、出行信息以及疫情分析数据等),也对广大民众解读数据、破解迷惑的数据分析能力提出了挑战。
Kyligence作为耕耘大数据领域多年的专业厂商,今天特别邀请了我们的资深数据分析专家,以此次疫情数据为例,为大家介绍一种简单易上手的分析方法,帮助大家日常更好的解读各种数据背后的真相。
这个我们称为“点-线-面-体”分析法,是一种数据分析工作者常用的数据分析方法,更是一种从简单到复杂、局部到全局的一体化数据运营思维方式。通过抽丝剥茧般在繁琐的分析过程中形成清晰分析主线的方法,能够帮助数据分析工作快速、有效、全面、精准的落地和执行,也可以广泛应用于各类生活和工作分析场景中。
点的发现关键在于各时段/时点数据的齐整规范,找出分析的基础指标,形成统计规范。然后通过分析工具将各时段的基础指标进行展示或者可视化供后续查询分析。 该环节需要完成两个核心事项:数据的规整化和统计时间窗口的选择。数据规整化直接影响数据的质量和分析结果的精准性,而统计时间窗口的选择是决定关键衡量指标的标准。
以当前疫情公布的数据为例:
相比于2003年的SARS疫情,多年来的政府大数据建设使得本次疫情数据的规整化较好,数据来源统一为国家卫健委,数据规范、标准一致;在齐整完善性方面,除了卫健委发布的疑似、确诊、治愈及死亡人数和医疗资源信息之外,还陆续完善了基于地域、社区等位置维度,这大大简化了我们整理数据的工作量。
数据统计时间窗口的确定,包含数据发生日期、统计日期和时间计算方式(时点/时段)的确定。确定统计时间窗口是数据分析中很重要的概念,在日常的数据分析工作中,尤其是金融行业,几乎所有的数据分析都会跟时间窗口挂钩,明细的数据级别都会有数据发生日期、统计日期的区分,便于进行不同时间跨度的计算,从而满足监管和经营分析的统计需求。
而同样的分析指标,不同统计时间窗口的选择也会解读出完全不同的结论。以疫情期间关键指标“病死率”为例,病死率的统计定义=当前时点死亡人数/确诊人数,如1月31日的当天累计死亡人数为259、截止到1月31日的累计确诊人数为11319,按照公式计算出病死率为2.2%。但从公布信息中得知新冠状病毒从确诊到死亡平均周期为7-8天,因此1月31日的当天死亡人数259如果要对应1月23日时点的确诊人数776,就会得到另一个病死率指标33.4%。
每个数据单独来看都是精准和规整的,而且都有具体的计算逻辑,为何两种计算方法得到病死率指标2.2%和33.4%如此巨大的差异?病死率真的有33.4%这么恐怖吗?
首先,我们能看到导致差异的原因在于统计时间窗口不一致,前者(2.2%)选择了统计日期一致的数据进行计算,后者(33.4%)选择了发生日期一致的数据进行计算,充分体现了不同的时间窗口统计数据会产生不同的计算结果,而不同结果代表的意义也非常不同。
其次,我们来看33.4%的病死率,既然是以发生日期作为时间窗口,那这个指标如果要成立还有个巨大的前提,就是1月31日当天259个死亡都发生于1月23日确诊的776人,这样才能表示两个数字的发生日期一致,但这显然很容易被证实是不可能的。所以,大家不要慌,33.4%这个结果是不靠谱的。不过,这一点很容易被忽略,也经常被网络上某些居心叵测的人用来作为制造恐慌的小伎俩。了解了时间窗口选择这个关键点,我们就能很容易发现其中的逻辑错误。
所以以统计日期一致的数据作为计算指标(2.2%)才能代表当前水平下的名义病死率,更具有统计学上的意义,各大权威媒体也是用的这种计算方式
线是点的连接,线的分析就是实现各基础数据指标在时间序列上的关联,也就是看趋势的过程,是实现数据时间价值与串联识别价值的过程。这是很简单易懂的数据分析方法,相信大家都已经轻松掌握了。但在进行连点成线的分析时,怎么识别时间序列变化中的异常数据、突增的影响因素、现有因素的波动分析等,确定异常点的处理方式,才是最终是否能画出一根合理趋势线的关键。
自然界有着著名的“黑天鹅”事件(17世纪之前的欧洲人认为天鹅都是白色的,但随着在澳大利亚第一只黑天鹅的发现,这个不可动摇的观念崩溃了,“黑天鹅”事件即指在未来某时刻出现的不可预知的事件,如历史上出现的87年股灾、次贷危机等),而“黑天鹅”事件的出现会对数据趋势再来巨大的影响,造成趋势的剧烈波动。
回到此次疫情中,日本的“钻石号邮轮”事件,可以说就是日本疫情统计数据的黑天鹅,使原本符合趋势的统计数据出现剧烈波动,而也对后面的预测带来了巨大干扰。所以可以看到,在媒体按区域统计确认病例中,“钻石号邮轮”的数据都是被单独列出来的,也就是为了屏蔽“黑天鹅”事件对解读和预测日本疫情发展带来的数据干扰。
再如浙江省的疫情数据。从之前公布数据看来,截至3月1日已经连续多日新增确认病例为0,按照此趋势可以预测疫情基本不会反弹,逐步调低防控应急响应机制。但3月1日浙江省确认的首位意大利归国华侨,使得趋势数据出现新的波峰。虽然波峰过后近几日浙江省新增病例仍保持零水平,考虑到传播后确诊的滞后性,民众不得不再次严肃起来。这对于浙江疫情趋势数据来说,就是一次明显的黑天鹅事件带来的数据波动,而这个数据应该怎么解读,特别是后续如果不断出现这种输入性的新增数据,在趋势分析上应该怎么处理,那就要见仁见智了。
从上面可以看出,对“黑天鹅”事件在带来的数据波动应该怎么处理,数据分析过程中根据分析的目标不同处理方式也不同。比如新型冠状病毒肺炎这一“黑天鹅”事件导致了国内口罩市场销量数据的异常,对疫情过后正常情况下的口罩市场销量的预测分析,不具有参考性,在数据处理过程需要过滤掉这部分数据;相反,如要预测后续全球疫情发展趋势和国外后续口罩市场的需求,这一“黑天鹅”事件反映的国内口罩市场数据信息则具有非常重要的参考意义,需要放进来更加精准的展示实际情况,且可以作为下一次突发疫情的历史参考及防御依据。
面的分析是在点、线分析整合的基础上进行扩展和类比,并且引入其他运营场景的特征考量。在这里,一个场景就代表一个面,比如把中国的疫情发展趋势分析线扩展到对海外疫情的分析预测,在进行从线到面的扩展和预测时,应从各方影响因素全面考量,使得数据分析过程具备角色化和场景化。
比如继国内疫情大面积爆发之后,伊朗、意大利、韩国、德国等各国呈现井喷之势。以意大利为例,截至3月8日,媒体端报送意大利新冠肺炎累计确诊病例为7375例,死亡人数已达366人,病死率高达4.96%,为全球最高。是否可以直接利用国内1到3月的现有数据趋势来预测意大利疫情的发展趋势呢?
答案显然是不能,国内新冠肺炎的发展趋势可以作为参考,但不同的国家防疫情况不同,对发展趋势的预测还需要根据相应的场景,把其他特征数据“点”考虑进来,比如:
从上面的举例可以看出,国内疫情的历史趋势对于海外疫情的发展预测是有参考意义的,但不能生搬硬套,考虑到国情、文化等不同情况,可能需要抱着更加悲观的态度对海外疫情未来发展趋势进行预估。而另一方面,作为较早爆发的意大利疫情,期恶化趋势对其他西方国家的疫情防控反而有着更为重要的价值参考。
体的分析是能够考虑脱离目标场景之外的,找到有可能影响最终分析结果的其他因素点,从多方面角度出发,形成完整的分析体,这也是在大数据分析中经常提到的相关性分析。
比如,对于前面提到的浙江突然出现的输入型病例数据,对于一个地区的趋势数据来说,只是造成了一个小波动。但是,随着国内疫情好转新增病例的减少,北京、上海等各地输入性病例的持续出现和增加,输入性病例已从小概率事件逐渐转变为我国疫情趋势和防疫调控的重要影响因子。我们不但应该引入输入性病例来重新调整疫情回归零线的预测走势,并且还需要跳出这些被动数据之外,找出更多的外部数据来为后续的主动防疫措施进行指导。
比如,小编惊奇的发现,全球疫情地域分布和海外华人地域分布有着一定的相关性。截至3月7日全球各国疫情确诊排名/地域分布图和2014年全球华裔分布图,疫情感染严重地域和华裔人口数量地域分布有惊人的相似处。
因此,依托从“面”到“体”的数据分析思维方式,我们应该充分借鉴以上示例的相关信息,在对输入性病例进行防控时,除了对当前已上榜的国家人员做好入境防疫措施之外,同时对没有上榜但华裔分布较多的国家的入境人员,也需要提前做好疫情数据的收集和入境防御,已充分做到未雨绸缪。
综上,本文借助大家目前最关心的疫情数据(疫情分析不是本文重点,以上所有示例只是用来举例),对 “点-线-面-体”的数据分析法中进行了解读,“点”解决了基础分析指标的定义和统计方式;“线”根据分析目标处理突发的异动数据,实现时间序列的连续分析;“面”是依托于场景目标,带入场景特征因素,是分析结果更加全面;“体”是综合考虑大数据下场景生态圈的相关影响分析,整体形成了从数据-场景-外围生态的完整分析闭环,快速达到分析初衷。这种分析方法可利用在复杂多变的各种场景中,帮助大家理出清晰的主线,并能铺盖全局,达到事半功倍的目的。
近年来,随着商业环境的竞争日益激烈,企业对于实时数据服务的需求急剧增加。Kyligence 在服务众多客户的过
数据要素在银行各业务领域和流程中发挥着至关重要的作用,面对激烈的市场竞争和客户需求,银行越来越注重从数据管理中
作为一名消费者,炎热的夏天我们会走进一家便利店,从冰柜中选出一瓶汽水;下午工作有点累了,我们会在公司的自动贩卖
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿(Luke)分享了对 AI 与数据行业的一些战
房地产行业是我国国民经济中的重要支柱产业之一,在房地产市场供求关系发生重大变化的当下,房企面临多重挑战。Kyl
今年年初,Kyligence 高级副总裁兼合伙人葛双寅(Silas Ge)受邀在阿斯利康“跃行致远三十周年年会
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿在公司内部的飞书订阅号发表了多篇 Rethin
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持