Advertisement

pythonsklearn乳腺癌数据集_Sklearn提供的常用数据集

阅读量:

一、自带的小数据集(packageddataset):sklearn.datasets.load_

  1. 鸢尾花数据集:load_iris():用于分类任务的数据集

  2. 手写数字数据集:load_digits():用于分类任务或者降维任务的数据集

  3. 乳腺癌数据集load-barest-cancer():简单经典的用于二分类任务的数据集

糖尿病相关数据集:load-diabetes():经典的回归分析中使用的标准数据集。值得注意的是,在这10个特征中,每个特征均被标准化处理为零均值的标准化后的特征值。

  1. 波士顿房价数据集:load-boston():经典的用于回归任务的数据集

  2. 体能训练数据集:load-linnerud():经典的用于多变量回归任务的数据集。

二、可供在线获取的数据集合:sklearn.datasets.fetch_通常规模较大(DownloadedDataset)

获取 Olivetti 面部图像数据集(data_home 为默认值 None、shuffle 设置为 False、random_state 设置为 0 和 download_if_missing 设置为 True)

三、计算机生成的数据集(GeneratedDataset):sklearn.datasets.make_

make_blobs函数:用于生成一个多标签分类问题的数据集,在该数据集中每个类别被分配一组或多组服从正态分布的数据点

make_classification:一个多标签分类器,在该分类器中,每个类别都被分配了一组由多个正态分布数据点构成的集合,并允许在生成数据时人为引入噪声机制以增强数据多样性。这些噪声可能包括类别间的维度相关性、不必要的特异属性以及冗余属性等内容

make_gaussian-quantiles:分割单高斯分布的数据集为两部分相等的数量,并将其归入两类

  1. make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度

通过调用make_circle和make_moom函数生成二维二元分类数据集,并用于评估这些算法的性能表现。在生成的数据集中加入噪声处理步骤,在这种情况下会得到具有圆形决策边界的数据样本。

四、svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)

from sklearn.datasets importload_svmlight_file

x变量训练集和y变量训练集=\text{load\_svmlight\_file}(\"/path/to/train\_dataset.txt\",\"\")注:当需要处理多组数据时,请使用逗号分隔参数

svmlight/libsvm的每一行样本的存放格式:

: :....

五、data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)

from sklearn.datasets.mldata import fetch_mldata

import tempfile

test_data_home = tempfile.mkdtemp()

iris = fetch_mldata('iris', data_home=test_data_home)

print(iris);print(iris.target.shape);print(iris.data.shape)

原文链接:

全部评论 (0)

还没有任何评论哟~