Advertisement

逻辑回归(一) 乳腺癌的数据集

阅读量:

逻辑回归

回归,用于处理和预测连续型标签的算法

线性回归完成的是回归拟合任务,而对于分类任务,我们同样需要一条线,但不是去拟合每个数据点,而是把不同类别的样本区分开来。

正则化

  • L1范式表现为参数向量中的每一个参数的绝对数之和
  • L2范式表现为参数向量中的每一个参数的平方和的开方值
  • 正则化强度逐渐增大,参数的取值会逐渐变小,L1正则化会将参数压缩为0,L2正则化只会让参数尽量小,不会取到0

导入所需要的的库

复制代码
    from sklearn.linear_model import LogisticRegression as LR
    import numpy as np
    from matplotlib import pyplot as plt
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import accuracy_score    # 引入比率分数,评估分类的好坏
    from sklearn.datasets import load_breast_cancer  #引入乳腺癌的数据集
    
    
      
      
      
      
      
      
    
    AI写代码
复制代码
    #L1,L2正则化的区别
    LR()
    
    
      
      
    
    AI写代码
复制代码
    cancer = load_breast_cancer()
    x = cancer.data
    y = cancer.target
    cancer.data.shape   #  (569,30) 569个样本,3个特征
    L1 = LR(penalty='l1',solver = 'liblinear', C=0.5,max_iter=1000)
    L2 = LR(penalty='l2',solver = 'liblinear', C=0.5,max_iter=1000)
    L1 = L1.fit(x,y)
    L1.coef_   #保留特征贡献较大的值
    
    
      
      
      
      
      
      
      
      
    
    AI写代码
在这里插入图片描述
复制代码
    #特征选择   
    #PCA()是特征创造
    (L1.coef_ != 0).sum(axis=1)  #查看保留了多少个特征,查看特征参数不为0的总数
    #结果 array([10])
    
    L2 = L2.fit(x,y)
    L2.coef_
    
    
      
      
      
      
      
      
      
    
    AI写代码
在这里插入图片描述
复制代码
    l1 = []
    l2 = []
    l1test = []
    l2test = []
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state = 420)
    '''
    accuracy_score()分类准确率分数是指所有分类正确的百分比。
    y_pred = [0,2,1,3]
    y_true = [0,1,2,3]
    accuracy_score(y_true,y_pred)
    '''
    np.linspace(0.05,1,19)  #0.05起始数,1是终止数,19 是要19个数,他会平均取出来19个数
    
    
      
      
      
      
      
      
      
      
      
      
      
      
    
    AI写代码
在这里插入图片描述
复制代码
    for i in np.linspace(0.05,1,19):
    L1 = LR(penalty='l1',solver = 'liblinear', C=i,max_iter=1000)
    L2 = LR(penalty='l2',solver = 'liblinear', C=i,max_iter=1000)
    
    #accuracy_score分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型。
    L1 = L1.fit(x_train,y_train)
    l1.append(accuracy_score(L1.predict(x_train),y_train))
    l1test.append(accuracy_score(L1.predict(x_test),y_test))
    
    L2 = L2.fit(x_train,y_train)
    l2.append(accuracy_score(L2.predict(x_train),y_train))
    l2test.append(accuracy_score(L2.predict(x_test),y_test))
    
    
    graph = [l1,l2,l1test,l2test]
    color = ['green','black','lightgreen','gray']
    label = ['l1','l2','l1test','l2test']
    
    plt.figure(figsize=(8,8))
    for i in range(len(graph)):
    plt.plot(np.linspace(0.05,1,19),graph[i],color[i],label=label[i])
    plt.legend()
    plt.show()
    
    
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
    
    AI写代码
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~