Advertisement

Python数据分析实战-链家北京二手房价分析

阅读量:

Python数据分析实战-链家北京二手房价分析

一、分析目标

  1. 研究北京市二手住宅价格的空间分布特征;
  2. 掌握变量定义、数据筛选及缺失值处理方法;
  3. 分析各类房地产价格指标;
  4. 进行不同价位区间的房源数量统计及其特征比较;
  5. 对各区房屋面积进行统计与分析;
  6. 进行全市及各区平均建筑规模特征分析以及总面积构成情况研究;
  7. 探讨房地产价格与空间布局要素的空间关系

二、分析具体内容

第1章 - 数据获取与预处理
第一步:获取数据
这些数据源自于网络上链家北京二手房的信息库。

在这里插入图片描述

可以看出共有12个关键指标需要关注:具体包括:房屋朝向、城区/街道/小区地址或名称等信息;链家编码标识代码;是否拥有电梯服务设施(Elevator);具体的楼层信息(Floor);房屋户型类型(Layout);装修程度(Renovation);房屋面积(Size),单位为平方米(㎡);建筑完成年份(Year)以及房价总金额(Price)。第2步是检查数据中的缺失值情况及各字段的数据类型。

在这里插入图片描述

可以观察到,在变量类型的设定上非常合理;其中数值型变量的类型均为int64类型,并且无需额外处理;唯一存在缺失值的是Elevator这一类别的变量,并且其缺失数量并不算少;之后需要采取相应的措施进行补充和完善。

在这里插入图片描述

4、处理缺失值

在这里插入图片描述

识别出共有6种情况:NaN、无电梯、有电梯、毛坯、精装与简装;鉴于数据采集过程中存在串行问题而导致的数据偏差,则需剔除毛坯、精装与简装三种类别;对于6层及以下的住宅而言,若无电梯则可暂不考虑其购买意向,而对于高层住宅则应予以重点关注,并基于现有信息对缺失值进行填充;值得注意的是,Floor仅表示该房源所在的楼层,而非整个小区的所有楼层,这可能引入一定的误差

在这里插入图片描述

通过分析可知:
各栋房屋的楼层设置在1至57层之间;
其中约75%的房屋建于20层及以下;
每套房子的价格区间大致在60万元至6000万元之间;
经统计发现仅有75%的价格低于710万元,
因此600万至6千万的价格点显得异常突出;
每栋房子的面积范围大致在15平方米至1 万零一十九平方米之间,
经统计约75%的面积小于一百一十八平方米;
各栋房屋的建造年代最早为一九五〇年、最晚为二〇一七年;
针对这些异常数据点采取了相应的处理措施

在这里插入图片描述

从数据来看:怀柔城区的房屋面积分布范围显著大于其他城区。具体分析数据显示该区域建筑类房地产中大部分是以居民楼为主。基于地理位置分析及数据结果与实际情况一致

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

进一步检查户型结构安排是否存在不符合标准的异常数据点;经分析发现存在'X房间零套'及'零间零进'等明显不符合合理居住 layouts 的情况;经过数据分布分析后发现'零间零进'类型的数据符合一般家庭居住条件的特点;最终决定移除所有'零房间零套'的数据记录;随后对户型面积结构进行详细分析

在这里插入图片描述
在这里插入图片描述

7、变量选取
由于'Id'无实际意义而删除该变量;引入'PerPrice'作为每平米单价以便后续分析;重新排列变量位置以便观察

在这里插入图片描述

Part 2 - 北京市房源分布

在这里插入图片描述

房间面积主要集中在较小范围内(≤200平),而超过这一范围的房源虽然存在但数量相对较少。二手房的价格普遍不超过千万水平,在每平米价格方面则以四万为最高峰值。然而与之相比,在3万至10万之间定价的房子虽然不算特别多但仍呈现出较大的价格差异性。

在这里插入图片描述

丰台区、海淀区、朝阳区以及昌平区的规模相当,在房价排名中位居上游;西城区与大兴区的规模则较为接近,在中游位置;而平谷区、怀柔区以及密云区的规模相对较小,在排名中处于较低的位置

  1. 各区域的价格分布情况及平方米平均价格的变动趋势
在这里插入图片描述
在这里插入图片描述
  1. 东西城及海淀等区域的新房售价普遍接近,在房价排名中居于前列;除了怀柔以外的所有区域的新房价格与每平方米售价并列排名。
  2. 各重点区域新房价格差异较小。
  3. 平谷及其他几个区域的新房售价相对较低。
  4. 为何怀柔地区的新房情况远优于上述地区?原因尚待进一步分析。
    Part 5 - 各区域房屋面积分布
    根据不同的面积范围进行分类:[0,50)平方千米属于Mini small类(极小户型),[50,100)平方千米属于small类(小户型),[100,150)平方千米属于medium类(中等户型),[150,200)平方千米属于big类(大户型),以及超过2公里范围以上的是huge类(巨大户型)。
在这里插入图片描述
  1. 市场上面积位于[50,100)平方米范围内的二手房数量最多;其次是[100,150)平方米区间内的房源;
  2. 根据房价水平的分布情况,在超小、小和中等户型之间存在明显的差异性;
  3. 就每平方米的价格而言,在其他因素相同的情况下,
    超小户型的房产价格普遍高于其他两类,
    而其余几类之间的差别则相对较小;
    综合考虑房屋总价的影响因素,
    这可能与供需关系密切相关:
    总价较低的区域市场需求较为旺盛,
    而相对于市场供应量较少的部分则更能吸引买家;
  4. Part 6 - 房价与房源特性的关系
  1. 房价与户型分布
  2. 房价与朝向分布
  3. 房价与装修分布
  4. 房价与楼层
  5. 房价与电梯
  6. 房价与建筑年限
    三、总结:
    通过深入分析可以看出,
    二手房市场的房源数量和房价呈现出明显的北京特征:
  7. 中心城区的东城、西城及学区房(尤其是海淀和朝阳区域)拥有较多的房子源且房价较高;
  8. 房屋面积主要集中在50-150平区间内,
    其平均售价大约在500-6百万人民币之间;
    小于50平的小户型虽然数量较少且总价较低,
    但其单位面积价格却相对较高;
  9. 房屋建筑的时间与其所在区域的发展历史高度一致;
  10. 房价更多地受到区域位置和地区面积的影响,
    而与其他因素如户型、装修程度以及是否有电梯等因素的相关性并不显著。
    本篇内容主要旨在锻炼Python实现数据清洗和可视化的技能:
    不足之处在于:
  11. 对变量"电梯"、“朝向”、“户型”等特征的处理较为粗略;
  12. 分析问题不够明确,
    导致研究结论不够具有针对性。

全部评论 (0)

还没有任何评论哟~