Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多
AI 数智助理
Kyligence Zen Kyligence Zen
Kyligence Enterprise Kyligence Enterprise
Kyligence Turbo Kyligence Turbo
指标平台解决方案
OLAP 解决方案
行业解决方案
客户总览
金融
零售
制造
医药
其他
云平台
BI
寻求合作
资源
Kyligence Enterprise
Kyligence Zen
培训
Apache Kylin
Byzer
Gluten
博客
关于
市场活动
在中国,由于受到安土重迁的思想影响,无论是刚踏入社会的年轻人,还是步入中年的家庭中坚,人们对房价的关注从未减少过。从2016年起,房价一路走高,甚至有一些十分神秘的天价房产。本文将揭示从数据上看全国最贵的天价小区有哪些,高房价分布在哪些城市,天价房有什么特点。
用Top-N从茫茫数据中找到天价房
本次分析需要涉及全国范围内的大量房地产数据,如果有一个函数可以快速从海量数据中找到某个维度(比如单价)上前20%的数据,就可以帮我们快速缩小要分析的范围,甚至直接定位目标。
于是,分析师小杜就想到了Top-N。Top-N在很多领域的分析中都很常用,简单来说,通过Top-N可以得到海量数据中符合要求的N个顶级项。 但在海量数据背景下,随着明细数据集越来越大,只通过在线计算的方式得到一个大数据集的Top-N结果需要耗费很长时间。
Kyligence Enterprise作为使用预计算的OLAP引擎,引入了Top-N函数来解决上述问题。具体来说,一方面将需要聚合的指标预计算,另一方面对数据分组排序并舍弃尾端数据,整体上降低了查询成本,因而可以迅速地获取并返回Top-N的结果。
本例中,分析师将通过Kyligence Enterprise中Top-N函数对海量房产数据进行分析。数据爬取自房天下(全球最大的房地产家居网络平台),共计约15万条,涉及全国28个城市的34944个小区。获得的数据集中,包含房产所在城市(CITY),小区(GADERN),平米单价(UNIT_PRICE),以及总价(PRICE)。
为实现Top-N函数的预计算,分析师需在设计Cube时在“度量”步骤为UNIT_PRICE添加Top-N度量。设置后如下图所示。
图1 Top-N度量设置
全国房价最高的10个城市
首先,以城市为聚合组,来查看全国普遍房价。我们分别选取25%、50%、75%分位数来代表房价情况,对全国平米单价进行排序。使用percentile函数[1]选取UNIT_PRICE分位数,利用Top-N进行排序。以50%分位数为例,查询语句如下:
select CITY, percentile_approx(UNIT_PRICE,0.5)as UNIT_PRICE_50 from CHI_PRICE_07271 group by CITY order by percentile_approx(UNIT_PRICE,0.5) desc limit 20
有Top-N预计算的Cube只需要0.38秒就可以得到结果。结果如下:
图2 全国28城市房价排行,50分位数
选取25%、50%、75%分位数来代替房价,三次计算的完整结果如下表。
表1 全国房价top10的城市
结果显示,北京、深圳、上海、厦门四个城市,在各分位房价均位列全国前四。其中第一名的北京以房价中位数为6.4万元/㎡ 远超同为直辖市的天津 。总体看来,房价前十名的大多为一线城市。 但有趣的是,厦门和福州两个来自闽南地区的二线城市,也进入了top10榜单。其中厦门更是以中位数4.1万元/㎡的均价超过广州,成为全国房价第四高的城市。而老牌一线城市广州,则仅在50%和75%高分位数区域超过杭州,位列全国第五。看来随着杭州经济的发展,杭州房价已逐渐上涨,在低分位数区间尤为明显。
全国房价最高的10个小区
为了查找“天价小区”,接下来以小区为聚合组,选取50%分位数代表房价,利用Top-N预计算查询全国小区房价Top50。查询语句如下:
select CITY,GADERN, percentile_approx(UNIT_PRICE,0.5)as UNIT_PRICE_50 from CHI_PRICE_07271 group by CITY,GADERN order by percentile_approx(UNIT_PRICE,0.5) desc limit 50
图3 全国高价小区top50
提取前十名如下:
表2 全国房价top10的小区
图4高价小区所在城市饼图
分析师继续对全国范围内单价前50的小区所在城市进行分析,得出深圳和上海分别以40%和34%的天价小区比例,占据了第一、第二名的位置。其中深圳的纯水岸二期小区,以44.01万元/㎡的价格位列全国天价小区之首。天价小区在北京的分布比例为18%,最高价为23.06 万元/㎡,仅排18名。而四大一线城市之一的广州,仅有两个小区上榜,分别位列16名和29名。
天价小区的户型:多为别墅型
进一步分析上榜天价小区的面积,可以发现绝大部分(74%)的高价小区面积超过200平方米,为别墅型住宅。对上榜的天价小区分别进行分析,可以发现单价前75%的小区存在更多的超大户型,且超过200平方米的别墅户型占比更多,达77%;单价后25%的小区经济型住宅比例更大,达60%。究其原因,分析师推测可能是2006年以来国家出台的停批别墅用地政策,造成别墅型土地资源稀缺,各级城市已无在建别墅楼盘,因此别墅型住宅价格一路走高。
图5天价小区面积分布
图6 房价前75%小区面积分布
小户型也有高单价
解密了天价小区的特点后,分析师开始关心更贴近居民生活的经济适用房,真的经济吗?比如面积低于50㎡的小户型,房价如何?依旧以小区为聚合组,对50㎡(小户型)的房子进行Top-N排序。
查询语句如下:
select CITY,GADERN,UNIT_PRICE from CHI_PRICE_0730 where SIZE_ROOM<50 order by UNIT_PRICE desc
表3 全国房价top20的小户型小区
图7 小户型高价小区分布
在小户型领域,单价前50名中,北京拥有其中的46%,超过上海和深圳的总和。地点多分布在德胜门、 西单、后海附近,多为地铁房。值得一提的是,天津也有4个小区进入top50,占比8%。可见京津地区对小户型是很青睐的。
结语:
利用Kyligence Enterprise的Top-N预计算,能够在1秒以内实现对全国房价的排序查询。从全国来看,天价小区主要集中在深圳、上海,多为超豪华别墅区。从房型来看,对于面积小于50㎡的小户型来说,天价小区主要集中在北京、天津地区。看来长三角、珠三角人民更愿意为休闲度假花钱,而京津冀人民更愿意为便捷买单!
Kyligence Enterprise 提供了基于海量数据的 Top-N函数计算,通过预计算提供亚秒级查询响应。对全国天价房产的分析,只是对Top-N预计算性能的一个小尝试。之后还会针对更多统计函数推出实例介绍和使用展示,敬请期待。
参考链接:Apache Kylin的Top-N近似预计算
[1]函数类型之一,用于计算数据的K百分位点及该点上的数值。该数值称为“分位数”
近年来,随着商业环境的竞争日益激烈,企业对于实时数据服务的需求急剧增加。Kyligence 在服务众多客户的过
数据要素在银行各业务领域和流程中发挥着至关重要的作用,面对激烈的市场竞争和客户需求,银行越来越注重从数据管理中
作为一名消费者,炎热的夏天我们会走进一家便利店,从冰柜中选出一瓶汽水;下午工作有点累了,我们会在公司的自动贩卖
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿(Luke)分享了对 AI 与数据行业的一些战
房地产行业是我国国民经济中的重要支柱产业之一,在房地产市场供求关系发生重大变化的当下,房企面临多重挑战。Kyl
今年年初,Kyligence 高级副总裁兼合伙人葛双寅(Silas Ge)受邀在阿斯利康“跃行致远三十周年年会
2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿在公司内部的飞书订阅号发表了多篇 Rethin
400 8658 757
工作日:10:00 - 18:00
已有账号? 点此登陆
预约演示,您将获得
完整的产品体验
从数据导入、建模到分析的全流程操作演示。
行业专家解惑
与资深行业专家的交流机会,解答您的个性化问题。
请填写真实信息,我们会在 1-2 个工作日内电话与您联系。
全行业落地场景演示
涵盖金融、零售、餐饮、医药、制造等多个行业,最贴合您的业务需求与场景。
Data + AI 应用落地咨询
与资深技术专家深入交流,助您的企业快速落地 AI 场景应用。
立即预约,您将获得
精准数据计算能力:
接入高精度数值计算大模型服务,为您的企业级AI应用提供强大支持。
个性化业务场景解决方案:
量身定制的计算模型和数据分析服务,切实贴合您的业务需求和应用场景。
Data + AI 落地应用咨询:
与资深专家深入探讨数据和 AI 如何帮助您的企业加速实现应用落地,构建更智能的数据驱动未来。
申请体验,您将获得
体验数据处理性能 2x 加速
同等规模资源、同等量级数据、同一套数据处理逻辑,处理耗时下降一半
专家支持
试用部署、生成数据、性能对比各操作环节在线支持