【ML】机器学习数据集:sklearn中回归数据集介绍
目录
- 1. Boston房价预测数据集
- 2. California房价预测数据集
- 3. 糖尿病预测数据集
在机器学习的学习资料中能够看到大量具体的实现案例这些案例多源自于Python编程语言内置的标准数据集。今天我们将深入阐述专门用于回归分析的三个数据集。
1. Boston房价预测数据集
该数据集将在scikit-learn 1.2版本被删除。具体来说,在scikit-learn 1.2及后续版本中将不再提供该数据集。因此,请务必妥善保存现有数据集。
数据集加载代码:
# boston房价预测数据集
from sklearn.datasets import load_boston
housing_boston = load_boston()
X = housing_boston.data # data
y = housing_boston.target # label
代码解读
为了便于查看加载的数据集, 我们可以选择在 Spyder 编辑器中进行操作. 以 Spyder 编辑器为例:
运行加载数据集的代码,右侧会出现变量;

其中X就是输入模型的数据:

y是数据对应的标签:

双击点开变量“housing_boston”:

data points consist of 506 data samples, each sample having 13 feature dimensions. These 13 feature names are stored in variable feature_names, including ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'].
CRIM: 各城镇的人均犯罪率
ZN: 超过25,000平方英尺的住宅用地比例
INDUS: 城镇非零售业态面积比例
CHAS: Charles River虚拟变量
NOX: 一氧化氮浓度(千万分之一)
RM: 每套住宅的平均房间数
AGE: 1940年以前建造的自住单位的比例
DIS: 到五个波士顿就业中心的加权距离
RAD: 径向公路可达性指数
TAX: 每1万美元的全值财产税税率
PTRATIO: 按城镇划分的学生教师比例
B: 城镇中黑人的比例
LSTAT: 人口地位下降率
2. California房价预测数据集
该数据集是基于Boston房价预测的数据集的一种替代性数据集,在scikit-learn版本发生更新时,我们计划将采用该数据集来进行回归预测任务的实践。
数据集加载代码:
# california房价预测数据集
from sklearn.datasets import fetch_california_housing
housing_california = fetch_california_housing()
X = housing_california.data # data
y = housing_california.target # label
代码解读
为了便于查看加载的数据集, 通常会采用Jupyter Notebook或Spyder编辑器. 例如, 在Spyder编辑器中.

其中X就是输入模型的数据:

y是数据对应的标签:

双击点开变量“housing_california”:

在feature_names变量中包含以下各项:MedInc(即收入中位数)、HouseAge(住宅年龄)、AveRooms(平均房间数量)、AveBedrms(平均卧室数量)、Population(人口总数)、AveOccup(平均居住人数)、Latitude(纬度坐标)以及Longitude(经度坐标)。
MedInc为街区组中的家庭收入中值;HouseAge为街区组内房屋建筑年代的中值;AveRooms代表平均每户所拥有的房间数量;AveBedrms为平均每户所拥有的卧室数目;Population指街区内的总人口数目;AveOccup表示平均每家人口的家庭成员数目;Latitude是纬度坐标值;Longitude是经度坐标值
3. 糖尿病预测数据集
此数据集是sklearn内置的一个用于预测1年后的糖尿病进展情况(换言之,该研究涉及一个连续因变量的预测模型)
数据集加载代码:
# 糖尿病数据集
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
X = diabetes.data # data
y = diabetes.target # label
代码解读
为了更加便捷地查看加载的数据集内容, 我们可以采用jupyter notebook或者spyder编辑器. 如spyder编辑器所示:
运行加载数据集的代码,右侧会出现变量;

其中X就是输入模型的数据:

y是数据对应的标签:

双击点开变量“diabetes”:

data: 该数据集包含 442 个样本,
每个样本具有 10 个维度,
其中每个样本由 10 个特征组成,
这些特征的名称存储于 feature_names 变量中,
分别为['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']。
age参数、sex分类、体重指数、血压平均水平、血清胆固醇水平、低密度脂蛋白水平、高密度脂蛋白水平、总胆固醇与高密度脂蛋白的比值、甘油三酯_level 的对数值(log)、血糖参数
该模块列举了机器学习算法的实现方法。
它包含了用于监督学习的各种分类器。
支持从多种数据格式导入数据。
这些分类器能够处理不同的输入类型。
模块还提供了评估模型性能的方法。
它允许对模型进行参数调整。
这些参数设置会影响模型的行为。
此外还包含了回归分析工具。
该模块还提供了生成模拟数据集的方法。
这些方法有助于验证算法效果。
文档中详细介绍了各个子模块的功能与用法。
每个子模块都有对应的Python类实现。
这些类提供了一系列的数据分析功能。
通过使用这些工具能够完成复杂的机器学习任务
