Kyligence Copilot - AI 数智助理,以 AI 变革企业经营与管理! 立即了解更多

【数据分析师养成记】全国天价小区在哪里?

杜懿岑
2018年 8月 24日

在中国,由于受到安土重迁的思想影响,无论是刚踏入社会的年轻人,还是步入中年的家庭中坚,人们对房价的关注从未减少过。从2016年起,房价一路走高,甚至有一些十分神秘的天价房产。本文将揭示从数据上看全国最贵的天价小区有哪些,高房价分布在哪些城市,天价房有什么特点。

用Top-N从茫茫数据中找到天价房

本次分析需要涉及全国范围内的大量房地产数据,如果有一个函数可以快速从海量数据中找到某个维度(比如单价)上前20%的数据,就可以帮我们快速缩小要分析的范围,甚至直接定位目标。

于是,分析师小杜就想到了Top-N。Top-N在很多领域的分析中都很常用,简单来说,通过Top-N可以得到海量数据中符合要求的N个顶级项。 但在海量数据背景下,随着明细数据集越来越大,只通过在线计算的方式得到一个大数据集的Top-N结果需要耗费很长时间。

Kyligence Enterprise作为使用预计算的OLAP引擎,引入了Top-N函数来解决上述问题。具体来说,一方面将需要聚合的指标预计算,另一方面对数据分组排序并舍弃尾端数据,整体上降低了查询成本,因而可以迅速地获取并返回Top-N的结果。

本例中,分析师将通过Kyligence Enterprise中Top-N函数对海量房产数据进行分析。数据爬取自房天下(全球最大的房地产家居网络平台),共计约15万条,涉及全国28个城市的34944个小区。获得的数据集中,包含房产所在城市(CITY),小区(GADERN),平米单价(UNIT_PRICE),以及总价(PRICE)。

为实现Top-N函数的预计算,分析师需在设计Cube时在“度量”步骤为UNIT_PRICE添加Top-N度量。设置后如下图所示。

图1 Top-N度量设置

全国房价最高的10个城市

首先,以城市为聚合组,来查看全国普遍房价。我们分别选取25%、50%、75%分位数来代表房价情况,对全国平米单价进行排序。使用percentile函数[1]选取UNIT_PRICE分位数,利用Top-N进行排序。以50%分位数为例,查询语句如下:

select CITY, percentile_approx(UNIT_PRICE,0.5)as UNIT_PRICE_50 from CHI_PRICE_07271 
 group by CITY
 order by percentile_approx(UNIT_PRICE,0.5)  desc limit 20

有Top-N预计算的Cube只需要0.38秒就可以得到结果。结果如下:

图2 全国28城市房价排行,50分位数

选取25%、50%、75%分位数来代替房价,三次计算的完整结果如下表。

表1 全国房价top10的城市

结果显示,北京、深圳、上海、厦门四个城市,在各分位房价均位列全国前四。其中第一名的北京以房价中位数为6.4万元/㎡ 远超同为直辖市的天津 。总体看来,房价前十名的大多为一线城市。 但有趣的是,厦门和福州两个来自闽南地区的二线城市,也进入了top10榜单。其中厦门更是以中位数4.1万元/㎡的均价超过广州,成为全国房价第四高的城市。而老牌一线城市广州,则仅在50%和75%高分位数区域超过杭州,位列全国第五。看来随着杭州经济的发展,杭州房价已逐渐上涨,在低分位数区间尤为明显。

全国房价最高的10个小区

为了查找“天价小区”,接下来以小区为聚合组,选取50%分位数代表房价,利用Top-N预计算查询全国小区房价Top50。查询语句如下:

select CITY,GADERN, percentile_approx(UNIT_PRICE,0.5)as UNIT_PRICE_50 from CHI_PRICE_07271 
group by CITY,GADERN
order by percentile_approx(UNIT_PRICE,0.5)  desc limit 50

图3 全国高价小区top50

提取前十名如下:

表2 全国房价top10的小区

图4高价小区所在城市饼图

分析师继续对全国范围内单价前50的小区所在城市进行分析,得出深圳和上海分别以40%和34%的天价小区比例,占据了第一、第二名的位置。其中深圳的纯水岸二期小区,以44.01万元/㎡的价格位列全国天价小区之首。天价小区在北京的分布比例为18%,最高价为23.06 万元/㎡,仅排18名。而四大一线城市之一的广州,仅有两个小区上榜,分别位列16名和29名。

天价小区的户型:多为别墅型

进一步分析上榜天价小区的面积,可以发现绝大部分(74%)的高价小区面积超过200平方米,为别墅型住宅。对上榜的天价小区分别进行分析,可以发现单价前75%的小区存在更多的超大户型,且超过200平方米的别墅户型占比更多,达77%;单价后25%的小区经济型住宅比例更大,达60%。究其原因,分析师推测可能是2006年以来国家出台的停批别墅用地政策,造成别墅型土地资源稀缺,各级城市已无在建别墅楼盘,因此别墅型住宅价格一路走高。

图5天价小区面积分布

图6 房价前75%小区面积分布

小户型也有高单价

解密了天价小区的特点后,分析师开始关心更贴近居民生活的经济适用房,真的经济吗?比如面积低于50㎡的小户型,房价如何?依旧以小区为聚合组,对50㎡(小户型)的房子进行Top-N排序。

查询语句如下:

select CITY,GADERN,UNIT_PRICE from CHI_PRICE_0730 where SIZE_ROOM<50 
order by UNIT_PRICE desc 

表3 全国房价top20的小户型小区

图7 小户型高价小区分布

在小户型领域,单价前50名中,北京拥有其中的46%,超过上海和深圳的总和。地点多分布在德胜门、 西单、后海附近,多为地铁房。值得一提的是,天津也有4个小区进入top50,占比8%。可见京津地区对小户型是很青睐的。

结语:

利用Kyligence Enterprise的Top-N预计算,能够在1秒以内实现对全国房价的排序查询。从全国来看,天价小区主要集中在深圳、上海,多为超豪华别墅区。从房型来看,对于面积小于50㎡的小户型来说,天价小区主要集中在北京、天津地区。看来长三角、珠三角人民更愿意为休闲度假花钱,而京津冀人民更愿意为便捷买单!

Kyligence Enterprise 提供了基于海量数据的 Top-N函数计算,通过预计算提供亚秒级查询响应。对全国天价房产的分析,只是对Top-N预计算性能的一个小尝试。之后还会针对更多统计函数推出实例介绍和使用展示,敬请期待。

参考链接:Apache Kylin的Top-N近似预计算

[1]函数类型之一,用于计算数据的K百分位点及该点上的数值。该数值称为“分位数”

添加企微

kyligence
关注我们

kyligence