数据分析实战之SVM（如何进行乳腺癌预测）

阅读量：

本文基于美国威斯康星州的乳腺癌诊断数据集，通过以下步骤构建了一个乳腺癌诊断的SVM分类器并计算了其准确率：首先从GitHub加载数据集，并对数据进行探索和清洗；接着进行了特征选择以减少维度；随后将数据划分为训练集和测试集，并对训练集进行标准化处理；最后使用SVM模型进行训练和预测，并获得91.23%的准确率。

本文基于美国威斯康星州乳腺癌诊断数据集，开发了一个用于乳腺癌诊断的SVM分类模型，并评估该模型在测试集上的准确率。

数据源：https://github.com/cystanford/breast_cancer_data/

1、加载数据源

复制代码

 import pandas as pd

    
 data = pd.read_csv(r'C:\Users\hzjy\Desktop\data.csv')

2、数据探索

查看数据的基本情况：可以看到各字段数据没有缺失

mean用于表示平均值计算结果，se用于表示标准差计算结果，worst用于表示最大值计算结果；最后30个特征量实际上是基于前10个形态学特异性参数（即radius, texture, perimeter, area, smoothness, compactness, concavity, concave points, symmetry以及fractal_dimension）的均值及其方差和最大统计量进行计算得到的结果

3、数据清洗

1）“id”没有实际意思，可以去掉

复制代码

    data.drop('id',axis = 1,inplace=True)

2）“diagnosis”字段的取值即分类结果为B或M，可以用0和1来替代

复制代码

    data['diagnosis'] = data['diagnosis'].map({'M':1,'B':0})

3）后面30个字段可以分成3组

复制代码

 featurs_mean = list(data.columns[1:11])

    
 featurs_se = list(data.columns[12:21])
    
 featurs_worst = list(data.columns[22:31])

4、特征字段的筛选

1）看整体良性、恶性肿瘤的诊断情况

复制代码

 import seaborn as sns

    
 import matplotlib.pyplot as plt
    
 %matplotlib inline
    
 sns.countplot(data['diagnosis'],label = 'Count')

2）观察下featurs_mean各变量之间的关系

复制代码

 corr = data[featurs_mean].corr()

    
 plt.figure(figsize=(14,14))
    
 sns.heatmap(corr,annot=True)     #annot = True 显示每个方格的数据

热力图的对角线元素显示了单变量与其自身之间的相关系数为1。颜色较浅则反映较高的相关性。

$radius\_mean$ 、 $perimeter\_mean$ 和 $area\_mean$ 之间具有高度相关性，并与 $compactness\_mean$ 、 $concavity\_mean$ 和 $concave\_points\_mean$ 的相关性较低。

这3个字段也是相关的，因此我们可以取其中的一个作为代表。

3）进行特征选择

特征选择的主要目标是实现降维，在减少维度的同时仅需少数特征即可反映数据的关键属性。这也有助于提升分类器的一般化能力，并避免其因过拟合而失去泛化性能。

可以从相关性大的的每类属性中任意选一个作为代表，

依据三个指标：Mean值、Standard Error和Worst Case，在这三个特征中挑选出表现最佳的参数。

此外，在分析特征时可从compactness_mean、concavity_mean和concave_points_mean这三个指标中选择compactness_mean这一项指标，并由此能够将原本的10个属性数量减少到6个。

复制代码

    features_remain = ['radius_mean','texture_mean', 'smoothness_mean','compactness_mean','symmetry_mean', 'fractal_dimension_mean']

5、准备训练集和测试集

复制代码

 from sklearn.cross_validation import train_test_split

    
 train,test = train_test_split(data,test_size = 0.3)  #抽取30%的数据作为测试集，其余作为训练集
    
 train_X = train[features_remain]   #抽取特征选择的数值作为训练和测试数据
    
 train_y = train['diagnosis']
    
 test_X = test[features_remain]
    
 test_y = test['diagnosis']

在对训练数据进行处理之前, 需要完成数据的标准化处理. 使所有特征具有相似的尺度, 并避免由于维度差异带来的影响.

复制代码

 from sklearn.preprocessing import StandardScaler

    
 ss = StandardScaler()               #采用Z-Score标准化，保证每个特征维度的数据均值为0，方差为1
    
 train_X = ss.fit_transform(train_X)
    
 test_X = ss.transform(test_X)

6、让SVM做训练和预测

复制代码

 from sklearn import svm

    
 from sklearn import metrics
    
 model = svm.SVC()                   #创建SVM分类器
    
 model.fit(train_X,train_y)          #用训练集做训练
    
 prediction = model.predict(test_X)  #用测试集做预测
    
 print('准确率:',metrics.accuracy_score(prediction,test_y))
    
  
    
  
    
 准确率: 0.9122807017543859

得出结果准确率在90以上，说明训练结果还不错。

全部评论 (0)

还没有任何评论哟~

数据分析实战之SVM（如何进行乳腺癌预测）

本文根据美国威斯康星州的乳腺癌诊断数据集，生成一个乳腺癌诊断的SVM分类器，并计算这个分类器的准确率。数据源：<https://github.com/cystanford/breastcancerd...

SVM实战：如何进行乳腺癌检测

SVM 既可以做回归，也可以做分类器。当用 SVM 做回归的时候，我们可以使用 SVR 或 LinearSVR，即support vector regression LinearSVR用...

SVM进行乳腺癌预测

一、数据获取 import matplotlib import pandas as pd import seaborn as sns ...from sklearn import svm from...

SVM（下）：如何进行乳腺癌检测

SVM是有监督的学习模型，我们需要事先对数据打上分类标签，通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题，可以将多个二分类器组合起来形成一个多分类器。

SVM（下）：如何进行乳腺癌检测？

SVM（下）：如何进行乳腺癌检测？如何在sklearn中使用SVM 在Python的sklearn工具包中有SVM算法，首先引用工具包 fromsklearnimportsvm SVM可以做回归可以...

SVM实战--乳腺癌检测

SVM实战–乳腺癌检测大纲算法背景二分类向多分类问题的推广乳腺癌数据挖掘实战算法背景 SVM（支持向量机）是在样本数据空间中找到一个超平面将不同类别的样本进行分割。划分的方式有很多，为了...

pythonsklearn乳腺癌数据集_【sklearn数据集】SVM之乳腺癌数据集实战

一、Sklearn介绍 scikitlearn是Python语言开发的机器学习库，一般简称为sklearn，目前算是通用机器学习算法库中实现得比较完善的库了。其完善之处不仅在于实现的算法多，还包括大量...

SVM向量机——预测乳腺癌

SVC类是用来进行分类的任务，SVR类是用来进行数值回归任务的 SVM选择的核函数由参数kernel指定线性核函数，指定参数C,表示对不符合最大间距规则的样本的惩罚力度多项式核函数，指定参数C，d...

【sklearn数据集】SVM之乳腺癌数据集实战

scikit-learn是Python语言开发的机器学习库，一般简称为sklearn，目前算是通用机器学习算法库中实现得比较完善的库了。其完善之处不仅在于实现的算法多，还包括大量详尽的文档和示例。其文...

[DA45] 使用SVM进行乳腺癌检测

数据集来自美国威斯康星州的乳腺癌诊断数据集.由于数据特征较多,本例使用相关性分析与主成分分析两种方法进行降维了处理,再通过SVM支持向量机模型对数据进行了分类. 一.数据预处理加载数据后对数据进行探...

是否确定退出登录?

数据分析实战之SVM（如何进行乳腺癌预测）

全部评论 (0)

相关文章推荐

数据分析实战之SVM（如何进行乳腺癌预测）

SVM实战：如何进行乳腺癌检测

SVM进行乳腺癌预测

SVM（下）：如何进行乳腺癌检测

SVM（下）：如何进行乳腺癌检测？

SVM实战--乳腺癌检测

pythonsklearn乳腺癌数据集_【sklearn数据集】SVM之乳腺癌数据集实战

SVM向量机——预测乳腺癌

【sklearn数据集】SVM之乳腺癌数据集实战

[DA45] 使用SVM进行乳腺癌检测