[DA45] 使用SVM进行乳腺癌检测

阅读量：

数据集来自美国威斯康星州的乳腺癌诊断数据集. 由于数据特征较多, 本例使用相关性分析与主成分分析两种方法进行降维了处理, 再通过SVM支持向量机模型对数据进行了分类.

一. 数据预处理

加载数据后对数据进行探索, 可以看到数据可以分为5类:

(一) ID

(二) diagnose

诊断结果. 其中'B'代表良性, 包含357例; 'M'代表恶性, 包含212例.

(三) 包含mean的数据

radius_mean	半径平均值
texture_mean	文理平均值
perimeter_mean	周长平均值
area_mean	面积平均值
smoothness_mean	平滑程度平均值
compactness_mean	紧密度平均值
concavity_mean	凹度平均值
concave points_mean	凹缝平均值
symmetry_mean	对称性平均值
fractal_dimension_mean	分形维数平均值

(四) 包含se的数据

内容与包含mean的数据大致相同, 为各个数据的方差.

(五) 包含worst的数据

内容与包含mean的数据大致相同, 为最严重的数据样例(最坏值).

数据不包含缺失值, 由于包含平均值mean的数据可反应数据的一般情况, 故使用包含平均值的10列进行分析, diagnose列用数字0代表良性, 数字1代表恶性, 作为数据的标签.

(二) 通过相关性分析手动降维

首先对提取出来的data_mean求得各特征之间的相关性系数, 使用seaborn绘制相关性热力图如下:

在图中我们看到, radius_mean与texture_mean, area_mean呈现了非常强的正相关性, compactness_mean也与convavity_mean和concave points_mean有较强的正相关性, 在此我们手动选取 radius_mean 和compactness_mean 作为各自的代表特征, 把数据从10维降到6维. 在通过sklearn中的StandardScaler与train_test_split方法进行标准化及训练-测试集分割, 最后使用线性支持向量机分类模型进行预测, 模型的评分为0.9298.

(三) 主成分分析法降维

使用sklearn中的管线pipeline连接Z-Score规范化模型与主成分分析模型, 使原数据在进行标准化后PCA降维, 为保证和相关性分析降维方法的可比性, 在PCA模型中设置参数n_components=6使数据降为6维, 在训练-测试集分割时使用相同随机种子数random_state=33.

通过打印pca.explained_variance_ratio_可以看到经过主成分分析降维后新的维度的贡献率分别为:

[ 0.5478588 0.25187136 0.08806152 0.04990094 0.03725392 0.01241417]

6个新维度的贡献率之和大于98% , 已经可以很好地代表原数据.

PCA降维后的LinearSVC模型评分为0.9357 , 表明在此特定条件下, 使用主成分分析降维方法要好于通过相关性分析手动降维的方法.

全部评论 (0)

还没有任何评论哟~

[DA45] 使用SVM进行乳腺癌检测

数据集来自美国威斯康星州的乳腺癌诊断数据集.由于数据特征较多,本例使用相关性分析与主成分分析两种方法进行降维了处理,再通过SVM支持向量机模型对数据进行了分类. 一.数据预处理加载数据后对数据进行探...

SVM进行乳腺癌预测

一、数据获取 import matplotlib import pandas as pd import seaborn as sns ...from sklearn import svm from...

SVM（下）：如何进行乳腺癌检测

SVM是有监督的学习模型，我们需要事先对数据打上分类标签，通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题，可以将多个二分类器组合起来形成一个多分类器。

SVM（下）：如何进行乳腺癌检测？

SVM（下）：如何进行乳腺癌检测？如何在sklearn中使用SVM 在Python的sklearn工具包中有SVM算法，首先引用工具包 fromsklearnimportsvm SVM可以做回归可以...

SVM实战：如何进行乳腺癌检测

SVM 既可以做回归，也可以做分类器。当用 SVM 做回归的时候，我们可以使用 SVR 或 LinearSVR，即support vector regression LinearSVR用...

SVM实战--乳腺癌检测

SVM实战–乳腺癌检测大纲算法背景二分类向多分类问题的推广乳腺癌数据挖掘实战算法背景 SVM（支持向量机）是在样本数据空间中找到一个超平面将不同类别的样本进行分割。划分的方式有很多，为了...

【Scikit-Learn】SVM检测乳腺癌

分别使用SVC类的高斯核函数及多项式核函数对乳腺癌数据集进行分类，并绘制学习曲线。最后使用多项式特征，并使用LinearSVC进行处理。（针对多项式特征，LinearSVC类比SCV类速度更快）。...

数据挖掘——SVM（乳腺癌检测）

文章目录 importmatplotlib matplotlib.use'Qt4Agg' 乳腺癌诊断分类 importpandasaspd importmatplotlib.pyplotasplt i...

SVM向量机——预测乳腺癌

SVC类是用来进行分类的任务，SVR类是用来进行数值回归任务的 SVM选择的核函数由参数kernel指定线性核函数，指定参数C,表示对不符合最大间距规则的样本的惩罚力度多项式核函数，指定参数C，d...

数据分析实战之SVM（如何进行乳腺癌预测）

本文根据美国威斯康星州的乳腺癌诊断数据集，生成一个乳腺癌诊断的SVM分类器，并计算这个分类器的准确率。数据源：<https://github.com/cystanford/breastcancerd...

是否确定退出登录?

[DA45] 使用SVM进行乳腺癌检测

一. 数据预处理

(二) 通过相关性分析手动降维

(三) 主成分分析法降维

全部评论 (0)

相关文章推荐

[DA45] 使用SVM进行乳腺癌检测

SVM进行乳腺癌预测

SVM（下）：如何进行乳腺癌检测

SVM（下）：如何进行乳腺癌检测？

SVM实战：如何进行乳腺癌检测

SVM实战--乳腺癌检测

【Scikit-Learn】SVM检测乳腺癌

数据挖掘——SVM（乳腺癌检测）

SVM向量机——预测乳腺癌

数据分析实战之SVM（如何进行乳腺癌预测）