Advertisement

机器学习-KNN小实战---乳腺癌预测

阅读量:

一、数据集导入

本项目基于sklearn库中的乳腺癌数据集开展研究工作,并对其数据来源进行详细介绍。具体而言,我们采用了scikit-learn官方提供的乳腺癌数据集,并参考了相关官方文档对获取流程进行了详细说明。

复制代码
 from sklearn.datasets import load_breast_cancer

    
 from sklearn.metrics import accuracy_score
    
 from sklearn.model_selection import train_test_split, GridSearchCV
    
 from sklearn.neighbors import KNeighborsClassifier
    
 from sklearn.preprocessing import StandardScaler
    
  
    
 #导入 数据集
    
 mydata = load_breast_cancer()
    
    
    
    
    python

二、数据集预处理

复制代码
  
    
 # 划分数据集
    
 x_train, x_test, y_train, y_test = train_test_split(mydata.data, mydata.target, test_size=0.3, random_state=32)
    
  
    
 # 数据集标准化预处理
    
 transformer = StandardScaler()
    
 x_train = transformer.fit_transform(x_train)
    
 x_test = transformer.fit_transform(x_test)
    
    
    
    
    python

三、模型训练

复制代码
 model = KNeighborsClassifier()

    
 # 交叉验证
    
 param_grid = {'n_neighbors': [1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21]}
    
 model = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)
    
 # 模型训练
    
 model.fit(x_train, y_train)
    
    
    
    
    python

四、模型评估

复制代码
 # 模型评估

    
 y_predict = model.predict(x_test)
    
 myresult = accuracy_score(y_test, y_predict)
    
 print('myresult-->', myresult)
    
    
    
    
    python

五、总结

这个乳腺癌的检测实战基于之前的鸢尾花预测实例,并都属于一些简单的分类问题。而这个属于二分类问题且较为简单。总体而言,在公式化学习的方法下将项目划分为三个阶段更为合理。数据集导入;预处理;模型训练;模型评估。

全部评论 (0)

还没有任何评论哟~