Advertisement

python sklearn是什么_Sklearn到底是什么?

阅读量:

更多详细代码关注sklearn中文官方文档:

1.概念

Scikit-Learn(全称:Python机器学习库)是以Python语言为基础开发的机器学习工具包。它在NumPy、SciPy、Pandas和Matplotlib的基础上构建起来,并且其API设计非常优雅。所有的API接口都相当简单易用,并且成功地封装了大量常用的机器学习方法。这些方法包括强大的回归分析能力、有效的降维技术、精确的分类算法以及灵活的聚类分析方法。该库提供了丰富的机器学习功能,并且支持多种主流的数据分析和可视化技术。

2.方法

2.1有监督学习的分类任务(Classification)

分类算法:

from sklearn import SomeClassifier

from sklearn.linear_model import SomeClassifier

from sklearn.ensemble import SomeClassifier

2.2有监督学习的回归任务(Regression)

回归算法:

from sklearn import SomeRegressor

from sklearn.linear_model import SomeRegressor

from sklearn.ensemble import SomeRegressor

2.3无监督学习聚类任务(Clustering)

聚类算法:

from sklearn.cluster import SomeModel

2.4无监督学习的降维任务(Dimensionality Reduction)

from sklearn.decomposition import SomeModel

2.5模型选择任务(Model Selection)

from sklearn.model_selection import SomeModel

2.6数据的预处理任务(Preprocessing)

from sklearn.preprocessing import SomeModel

2.7引入某个数据集

from sklearn.datasets import SomeData

3.部分代码详细分析

3.1自带的数据集

例如导入乳腺癌数据集:

#导入乳腺癌数据集

from sklearn.datasets import load_breast_cancer

数据是以「字典」格式存储的,详细查看一下里面的键:

breast = load_breast_cancer()

print(breast.keys())

结果:

键的名词解释:

data:特征值 (数组)

target:标签值 (数组)

target_names:标签 (列表)

DESCR:数据集描述

feature_names:特征 (列表)

filename:iris.csv 文件路径

详细查看一下数据集:

#定义两个分别为数据集的样例个数、特征个数

n_samples,n_features = breast.data.shape

#输出数据集的样例个数和特征个数,类似数据集的规模

print(n_samples,n_features)

#输出数据集的特征名称

print(breast.feature_names)

#输出数据集的前5个特征示例

print(breast.data[0:5])

可以看到输出分别为——样例个数以及特征个数:

数据集中30个特征的名称为:

前五个示例为(每一个示例中都有30个数据,分别对应30个特征):

输出数据集的标签大小:

#输出数据集的标签数量(也就是最后的那个是乳腺癌良性还是恶性):

print(breast.target.shape)

输出数据集标签名称看看:

#输出数据集标签名称:

print(breast.target_names)

输出全部标签示例:

该数据集包含569个标签,并划分为两个分类项(malignant恶性与benign良性),其中分别以数值形式编码为0和1的形式表示各类别归属

通过pandas库中的DataFrame工具生成为数据框以解析数据集的具体信息

Seaborn 的 pairwise plot (显示各特征之间的关系) 用于呈现数据集的内容。

import seaborn as sns

from matplotlib import pyplot as plt

sns.pairplot(breast_data,hue='species',palette='husl');

plt.show()

全部评论 (0)

还没有任何评论哟~