机器学习之sklearn-KNN近邻算法分类小案例（乳腺癌预测最优模型）

阅读量：

（案例）：用sklearn包实现knn分类小案例，通过交叉验证网格搜索获取最优参数模型，进行参数评估。
导包：
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score,precision_score,recall_score,roc_auc_score,roc_curve
import matplotlib.pyplot as plt
import matplotlib as mpl
设置字符集，防止中文乱码
mpl.rcParams[‘font.sans-serif’]=[u’simHei’]
mpl.rcParams[‘axes.unicode_minus’]=False

数据获取部分： 1. 首先导入乳腺癌相关数据 data_breast_cancer = load_breast_cancer() 2. 然后获取特征值 X = data_breast_cancer.data 3. 接着获取目标值 y = data_breast_cancer.target 4. 最后将数据集划分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=122)

数据处理：

进行标准化处理
scaler = StandardScaler()
拟合训练集以计算均值与标准差
scaler.fit(X_train)
分别对训练集与测试集进行标准化转换
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

确定最佳模型超参：
超参配置字典如下：
parameters={
n_neighbors取值范围为3至10之间, #k值选择
权重计算方式选'距离加权'或'均匀加权', #权重计算方式
p取值范围为1至6之间 #选择计算公式
}

2.实例化分类器
knn=KNeighborsClassifier()

实现基于网格搜索的交叉验证过程：采用三折交叉验证策略。
gc = GridSearchCV(knn, param_grid=parameters, cv=3, n_jobs=1)

训练数据建模：
gc.fit(X_train_std,y_train)

模型评估

数据可视化方面：ROC曲线绘制

ROC曲线可视化：

结果展示：
最佳分类器模型：采用KNeighborsClassifier算法，在以下条件下进行参数配置——algorithm设置为'auto'、leaf_size设为30、metric选用了minkowski距离度量方法、metric_params设为空值、n_jobs保持默认计算资源分配状态、n_neighbors设定为3个邻居节点以及p赋值为1；并且通过加权距离作为权重函数进行计算得出最佳分类器配置方案。
最佳参数设置包括n_neighbors=3、p=1以及加权距离作为距离度量标准；最高准确率为0.9698；预测准确率达到0.9766；精确率为0.9821；召回率为0.9821；F-测度值也为0.9821；AUC评估得分为0.9741。
在第X次测试中（X分别为从第①组至第⑩组），真实值与预测结果一致均为[①]的情况出现次数最多；而在真实值为②的情况下（如测试编号分别为④和⑧），系统仍能正确输出对应的预测结果[②]以供参考使用

全部评论 (0)

还没有任何评论哟~

机器学习之sklearn-KNN近邻算法分类小案例（乳腺癌预测最优模型）

（案例）：用sklearn包实现knn分类小案例，通过交叉验证网格搜索获取最优参数模型，进行参数评估。导包： fromsklearn.datasetsimportloadbreastcancer f...

机器学习之sklearn-KNN近邻算法分类小案例（癌细胞检测）

（案例）：用sklearn机器学习包简单实现KNN分类检测。导包： fromsklearn.neighborsimportKNeighborsClassifier importnumpyasnp i...

机器学习——K近邻算法及乳腺癌检测分类

一、引言 KNN可用于分类和回归，用于分类时是多分类方法。注意:由于此方法根据预测点近邻的各类点的个数多少来确定该预测点的类别，因此原始类别数据不均衡，将严重影响最终分类效果。

机器学习-KNN小实战---乳腺癌预测

一、数据集导入本项目采用sklearn中的breastcancer的数据集，数据集源介绍sklearn.datasets.loadbreastcancer—scikitlearn1.4.2docum...

Python机器学习小项目实战：KNN算法预测乳腺癌

1\.引言在前面的几篇文章中，我们已经学习了线性回归、逻辑回归和决策树等机器学习算法。线性回归擅长预测连续数值，逻辑回归擅长解决二分类问题，而决策树则可以处理更复杂的非线性关系。然而，在实际应用中，...

sklearn之Knn实战乳腺癌数据案例

sklearn之Knn实战乳腺癌数据案例（此处博主不细说Knn算法的基础逻辑，有兴趣可自行百度）（导入的数据是sklearn自有的乳腺癌数据，sklearn有大量内置的数据，详细可点击sklear...

机器学习KNN最邻近分类算法

1、KNN算法简介 KNNKNearestNeighbor最邻近分类算法，其核心思想“近朱者赤，近墨者黑”，由你的邻居来推断你的类别。图中绿色圆归为哪一类？ 1、如果k=3，绿色圆归为红色三角形 2...

机器学习的医疗乳腺癌数据的乳腺癌疾病预测

项目视频讲解：基于机器学习的医疗乳腺癌数据的乳腺癌疾病预测完整代码数据分享哔哩哔哩bilibili 效果演示：代码：第一步！导入我们需要的工具 importnumpyasnp importpand...

大数据分析案例-基于LightGBM算法构建乳腺癌分类预测模型

🤵‍♂️个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论💬点赞👍🏻收藏📂加关注+ 喜欢大数据分析...

使用K近邻算法诊断乳腺癌

使用K近邻算法诊断乳腺癌一、设计内容及目的（一）设计内容数据收集：收集包含乳腺癌相关特征的数据集，例如肿块大小、肿块形状、肿块表面的光滑度、肿块边缘的均匀性等。这些特征可以从乳腺癌病例的医疗记录...

是否确定退出登录?

机器学习之sklearn-KNN近邻算法分类小案例（乳腺癌预测最优模型）

全部评论 (0)

相关文章推荐

机器学习之sklearn-KNN近邻算法分类小案例（乳腺癌预测最优模型）

机器学习之sklearn-KNN近邻算法分类小案例（癌细胞检测）

机器学习——K近邻算法及乳腺癌检测分类

机器学习-KNN小实战---乳腺癌预测

Python机器学习小项目实战：KNN算法预测乳腺癌

sklearn之Knn实战乳腺癌数据案例

机器学习KNN最邻近分类算法

机器学习的医疗乳腺癌数据的乳腺癌疾病预测

大数据分析案例-基于LightGBM算法构建乳腺癌分类预测模型

使用K近邻算法诊断乳腺癌