Advertisement

【ML】机器学习数据集:sklearn中分类数据集介绍

阅读量:

目录

    1. 针对乳腺癌的问题的数据集属于二元分类问题。
    1. 用于鸢尾花识别的任务的数据集属于三元分类问题。
    1. 用于葡萄酒种类识别的任务的数据集属于三元分类问题。
    1. 用于手写字体数字识别的任务的数据集属于十元分类问题。
    1. 其他类型的任务的数据集合
  • 参考资料

在机器学习教材中包含有很多的 demo 代码。这些 demo 代码都是基于 Python 内置的数据集编写而成。今天我们将重点介绍 sklearn 中几个常用的分类预测数据集。本教程使用的 sklearn 版本是 1.0.2。

1.乳腺癌分类数据集(二分类)

数据集加载代码:

复制代码
    from sklearn.datasets import load_breast_cancer
    
    data = load_breast_cancer()
    X = data.data
    y = data.target
    
    
      
      
      
      
      
    
    代码解读

为了便于查看加载的数据集,请选择jupyter notebook或spyder编辑器作为开发环境。例如,在本节中我们主要采用spyder编辑器来进行数据处理。

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

X是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“data”:

在这里插入图片描述

其中包含569组数据(Data Quantity),每组数据均具备30个维度的信息(Data Dimension))。这些维度具体包括以下各项(Feature Names):平均半径(Mean Radius)、平均触感(Mean Texture)、平均周长(Mean Perimeter)等基础参数;以及误差值(Error Values),如半径误差(Radius Error)、纹理误差(Texture Error)等细节指标;此外还有最坏状态参数(Worst Parameters),例如最坏半径(Worst Radius)、最坏对称性(Worst Symmetry)等关键指标。

2.鸢尾花分类数据集(三分类)

数据集加载代码:

复制代码
    from sklearn.datasets import load_iris
    
    data = load_iris()
    X = data.data
    y = data.target
    
    
      
      
      
      
      
    
    代码解读

为了更好地方便查看加载的数据集, 我们可以选择使用Jupyter Notebook或Spyder编辑器. 以下以Spyder编辑器为例:

在这里插入图片描述

X是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“data”:

在这里插入图片描述

包含150条数据的数据集每个样本具有4个特征维度这些具体特征名称均存储在feature_names变量中具体包括sepal length cm sepal width cm petal length cm以及petal width cm

3.葡萄酒分类数据集(三分类)

数据集加载代码:

复制代码
    from sklearn.datasets import load_wine
    
    data = load_wine()
    X = data.data
    y = data.target
    
    
      
      
      
      
      
    
    代码解读

为了便于查看数据集的加载情况, 我们可以选择 Jupyter Notebook 或 Spyder 编辑器, 如 Spyder 编辑器所示.

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

X是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“data”:

在这里插入图片描述

包含以下信息:包含178个样本的数据集,在每个样本中都包含了13个不同的特征维度。这些具体来说,则由feature_names变量存储,并且包括以下各项:['酒精含量'、'柠檬酸含量'、'灰分'、'灰分中的可溶性物质含量'、'镁元素含量'、'总酚含量'、'黄酮类化合物含量'、'非黄酮类化合物酚类物质含量'、'花青素类化合物含量'、'颜色深度值指数化处理结果值系数分解得到的结果值系数分解得到的结果值系数分解得到的结果值系数分解得到的结果值系数分解得到的结果值系数分解得到的结果值系数分解得到的结果值系数分解得到的结果值']

4.手写数字分类数据集(十分类)

数据集加载代码:

复制代码
    from sklearn.datasets import load_digits
    
    data = load_digits()
    X = data.data
    y = data.target
    
    
      
      
      
      
      
    
    代码解读

为了便捷地访问加载的数据集, 我们可以选择性地调用Jupyter Notebook或PyCharm Editor. 在此基础上,默认情况下将采用PyCharm Editor.

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

X是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“data”:

在这里插入图片描述

该系统包含1797条数据样本,每个样本具有64个维度的属性值。这些属性值以向量形式存在,并被存储在名为feature_names的变量中。这些特征的具体名称包括pixel_0_0;pixel_0_1;pixel_0_2;...;pixel_7_7等共64个元素。

5.其他数据集

除此之外还有一些其他的分类数据集 其中 包括新闻文本分类数据集(如 fetch_20newsgroups 和 fetch_20newsgroups_vectorized 两种类型的数据集 分别属于二十个类别) 森林植被类型数据集(属于七种类别的 fetch_covtype 数据集合) 进入侵检测的数据集合(包含二十三个类别的 fetch_kddcup99 数据集合)以及用于人脸数据分析的多类人脸识别相关数据集合(如(fetch_lfw_pair) (fetch_lfv_people))等

参考资料

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets

全部评论 (0)

还没有任何评论哟~