Advertisement

北京二手房价预测(数据分析)

阅读量:

本项目介绍了一个使用Python进行的北京二手房数据分析初级项目,数据来源为链家全网二手房数据,可通过百度云盘下载。项目主要涉及数据初步认识、数据处理、数据可视化分析以及特征分析。在数据处理中,解决了缺失值和异常值问题,通过保留两位小数和合理填充缺失值的方法,提升了数据质量。数据可视化部分分析了Region、Size、Layout、Renovation、Elevator、Year和Floor等特征,结果显示各特征对二手房价格的影响。整体目标是通过数据分析为二手房定价提供参考价值。

分析目的:旨在简要介绍一个基础的数据分析项目,帮助读者熟悉使用Python进行简单数据分析的基本流程。数据源:提供链家全网北京二手房数据的来源,该数据集可通过百度云盘获取,具体链接及提取码如下:链接:https://pan.baidu.com/s/18R24WTkZIOFH_qvaWjixOw 提取码:61bp。一、数据初步认识:首先需要导入必要的机器学习库Scikit-learn、科学计算库Numpy、Pandas以及可视化库Matplotlib和Seaborn。步骤①初步了解数据的基本特征。

在这里插入图片描述
在这里插入图片描述

排查数据集中的缺失值及其异常数据点,并结合大概的数据统计进行系统性分析:描述函数可以涵盖平均数、标准差、中位数、最小值、最大值、25%分位数和75%分位数等统计指标;通过图一可以看出,Elevator字段存在显著的缺失数据,其数量(15440)少于总样本量(23677);图二显示,Size的最小值为2,floors的最大值为57,这些统计结果与一般房屋状况存在明显差异,需要重点关注。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、数据处理
Id 特征虽然在数据列表中,但是并没有实际意义,直接将其移除新增加一个新的特征 PerPrice用于分析数据,处理后的数据如图:
但是遇到两个问题:如何保留两位小数、如何填充缺失值(如果直接去掉将缺失很多有用数据,必然不可取)

在这里插入图片描述
在这里插入图片描述

解决保留两位小数:

在这里插入图片描述

基于实际情况,可以估算出一般六楼以上建筑有电梯,而六楼及以下则没有电梯,从而进行缺失值的填充。通过apply函数进行操作。

在这里插入图片描述

问题解决后数据处理如图:

在这里插入图片描述

三、数据可视化分析(排序可自定义)
1.Region分析
①分区分析 :北京分区二手房单价对比

在这里插入图片描述

②分区分析 :北京分区二手房数量对

在这里插入图片描述

③分区分析 :北京分区二手房总价

在这里插入图片描述
在这里插入图片描述

注:区域特征可视化采用 seaborn 完成,颜色使用调色板 palette 参数,颜色渐变,越浅说明越少。
结果显示:
二手房均价:西城区的房价最贵均价大约11万/平,因为西城在二环以里,因为是热门学区房的聚集地。其次是东城大约10万/平,房价最便宜的就是平谷和密云2万多/平。
二手房房数量:从数量统计上来看,目前二手房市场上比较火热的区域。海淀区和朝阳区二手房数量最多,差不多都接近3000套,然后是丰台区。
二手房总价:通过箱型图看到,各大区域房屋总价中位数都都在1000万以下,且房屋总价离散值较高,西城最高达到了6000万,说明房屋价格特征不是理想的正太分布。

2.Size 特征分析

在这里插入图片描述
在这里插入图片描述

利用 regplot 绘制了 Size 和 Price 之间的散点图,表明 Size 特征基本上与 Price 呈现线性关系,这与常识中面积越大价格越高的观点相吻合。然而,存在两组明显的异常点:一组是面积不到 10 平米却价格达到 1 亿以上的数据点;另一组是面积超过 1000 平米却价格异常低廉。对于这些特殊的点位,需要特别关注分析:

display(lj1.loc[lj1[‘Size’]<10].head(100))

在这里插入图片描述

经过分析,这组数据属于别墅类。原因在于别墅的结构特点使其具有特殊性,此外,二手房类别墅不在我们的处理范围内。超过1000平米的面积可能属于商业用途的房屋,因此我们决定将这些特殊的别墅和商业用途的房屋剔除。处理结果如图:

在这里插入图片描述
在这里插入图片描述

3.布局特征分析
结果显示了多种厅室组合形式,其中包括了9室3厅、4室0厅等独特的结构。其中,2室1厅的占比最高,之后是3室1厅,接着是2室2厅和3室2厅的结构。

在这里插入图片描述
在这里插入图片描述

对Renovation特征的分析中,发现Renovation特征中存在南北区分,该特征属于朝向类型。因此,需要进行清除或替换该特征。在数据处理过程中,我们采用如下条件进行筛选:lj1[‘Layout’]!=‘叠拼别墅’,即排除叠拼别墅布局;面积小于1000平方米;且Renovation!=‘north-south’,即排除南北区分的Renovation特征。

在这里插入图片描述

结果表明,二手房中精装修类目数量最多,其次是简单装修。就价格而言,毛坯状态的二手房价格最高,其次是精装修类目。

在这里插入图片描述

5.Elevator 分析

在这里插入图片描述
在这里插入图片描述

结果表明,拥有电梯的二手房数量较多,能满足北京庞大的需求。相应地,有电梯二手房的房价较高,其前期装修费和后期维护费也包含在内。

6.Year 分析

在这里插入图片描述
在这里插入图片描述

通过Renovation和Elevator的分类条件,基于FaceGrid分析Year特征,二手房房价整体表现出随着时间推移而上涨的趋势;2000年之后建造的二手房房价相较于2000年之前表现出显著的房价上涨;1980年之前基本没有电梯二手房的数据;1980年之前无电梯二手房中,简装二手房占比最高,精装二手房较少。

7.Floor 分析

在这里插入图片描述
在这里插入图片描述

分析结果表明,六层二手房数量最多,这需要我们理解楼层的相对价值。楼层与某些文化背景也有着密切的联系,通常被认为越受欢迎的楼层房价越高,但需要注意的是,4层和18层的房屋并不常见。一般情况下,中间楼层的受欢迎程度较高,价格也较为昂贵,而底层和顶层则因受欢迎程度较低而价格相对较低。因此,楼层是一个相对复杂的特征,对房价的影响因素较多,需要综合考虑。以今天的案例为例,我们从七个方面进行分析,最终得到了每个部分的详细结果,具有一定的参考价值。

全部评论 (0)

还没有任何评论哟~