pythonsklearn乳腺癌数据集_Sklearn提供的常用数据集
一、自带的小数据集(packageddataset):sklearn.datasets.load_
-
鸢尾花数据集:load_iris():用于分类任务的数据集
-
手写数字数据集:load_digits():用于分类任务或者降维任务的数据集
-
乳腺癌数据集load-barest-cancer():简单经典的用于二分类任务的数据集
糖尿病相关数据集:load-diabetes():经典的回归分析中使用的标准数据集。值得注意的是,在这10个特征中,每个特征均被标准化处理为零均值的标准化后的特征值。
-
波士顿房价数据集:load-boston():经典的用于回归任务的数据集
-
体能训练数据集:load-linnerud():经典的用于多变量回归任务的数据集。
二、可供在线获取的数据集合:sklearn.datasets.fetch_通常规模较大(DownloadedDataset)
获取 Olivetti 面部图像数据集(data_home 为默认值 None、shuffle 设置为 False、random_state 设置为 0 和 download_if_missing 设置为 True)
三、计算机生成的数据集(GeneratedDataset):sklearn.datasets.make_
make_blobs函数:用于生成一个多标签分类问题的数据集,在该数据集中每个类别被分配一组或多组服从正态分布的数据点
make_classification:一个多标签分类器,在该分类器中,每个类别都被分配了一组由多个正态分布数据点构成的集合,并允许在生成数据时人为引入噪声机制以增强数据多样性。这些噪声可能包括类别间的维度相关性、不必要的特异属性以及冗余属性等内容
make_gaussian-quantiles:分割单高斯分布的数据集为两部分相等的数量,并将其归入两类
- make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度
通过调用make_circle和make_moom函数生成二维二元分类数据集,并用于评估这些算法的性能表现。在生成的数据集中加入噪声处理步骤,在这种情况下会得到具有圆形决策边界的数据样本。
四、svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)
from sklearn.datasets importload_svmlight_file
x变量训练集和y变量训练集=\text{load\_svmlight\_file}(\"/path/to/train\_dataset.txt\",\"\")注:当需要处理多组数据时,请使用逗号分隔参数
svmlight/libsvm的每一行样本的存放格式:
: :....
五、data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)
from sklearn.datasets.mldata import fetch_mldata
import tempfile
test_data_home = tempfile.mkdtemp()
iris = fetch_mldata('iris', data_home=test_data_home)
print(iris);print(iris.target.shape);print(iris.data.shape)
原文链接:
