逻辑回归实战：从疝气病症预测病马的死亡率

阅读量：

为了预测患有疝病的马的生存情况，在研究的数据集包含368个样本和28个特征变量的基础上展开分析。研究中收集了有关马疝病检测的一些关键指标，在某些情况下这些指标具有主观性，在测量上存在一定难度。如疼痛等级评估等为例进行说明即可。The study acknowledges that this dataset also faces a challenge with 30% missing values.为了避免影响后续分析结果，在处理过程中需要注意对缺失值进行合理填充与剔除操作以确保准确性与可靠性.In addressing this challenge, the first step is to preprocess the data.为了提高模型的有效性, 需要在后续步骤中引入相应的统计方法进行补充与修正

1. 准备数据：处理数据中的缺失值

对于存在部分缺失的数据而言，丢弃与重新获取并不明智的做法；下面介绍几种解决数据缺失问题的方法：

使用可用特征的均值来填补缺失值
使用特殊值来填补缺失值，如-1
忽略有缺失值的样本
使用相似样本的均值添补缺失值
使用另外的机器学习算法预测缺失值

对于该实战中使用的数据集，在预处理阶段需要做两件事：

所有缺失的数据点都应由一个实数值替代。
我们采用实数0作为替代值。
这一设置特别适合于Logistic回归分析，并不会改变回归系数。
因为Sigmoid函数在输入为 $Sigmoid(0)=\ sigmoid(0)= 1/(1+e^{-x})= 1/(1+e^{−x})= 1/(1+e^{-x})= 1/(1+e^{-x})= 1/(1+e^{-x})= 1/(1+e^{-x})=$ 当 $x=0$ 时等于 $Sigmoid(0)=\ sigmoid(0)= \frac{1}{2}$ .
所以，在预测过程中没有偏向性。
这种替代方法也不会引入误差。

在测试数据集中识别出某条数据的类别标签缺失，则应将其移除。这因而是由于类别标签与特征之间存在显著差异的原因，在无法找到一个合适的替代值来填充的情况下不得不进行处理。

在机器学习领域中解决缺失数据的问题无统一解决方案，
该问题受具体应用场景影响。

原始数据经过预处理后被保存为两个文件：horseColicTest.txt和horseColicTraining.txt。这些文件与原始数据可参考文末提供的链接获取。

2. 用Logistic回归进行分类

使用Logistic回归方法进行分类即对测试集中的每一个样本的特征向量进行处理。然后将这些乘积结果累加，并将其代入Sigmoid函数中计算总和。若计算得到的Sigmoid函数值超过0.5，则判定该样本属于正类。

复制代码

 '''

    
 数据加载
    
 '''
    
 def loadDataSet(filePath):
    
     f = open(filePath)
    
     dataList = []
    
     labelList = []
    
     for line in f.readlines():
    
         currLine = line.strip().split('	')
    
         lineArr = []
    
         for i in range(21):
    
             lineArr.append(float(currLine[i]))
    
         dataList.append(lineArr)
    
         labelList.append(float(currLine[21]))
    
     return dataList, labelList
    
  
    
  
    
 '''
    
 sigmoid函数
    
 '''
    
 def sigmoid(inX):
    
     return 1.0 / (1 + np.exp(-inX))
    
  
    
  
    
 '''
    
 随机梯度下降算法
    
 '''
    
 def stocGradAscent(dataList, labelList, numIter=150):
    
     dataArr = np.array(dataList)
    
     m, n = np.shape(dataArr)
    
     weights = np.ones(n)
    
     for j in range(numIter):
    
         dataIndex = list(range(m))
    
         for i in range(m):
    
             alpha = 4 / (1.0 + j + i) + 0.01  # 步长为动态变化
    
             rand = int(np.random.uniform(0, len(dataIndex)))
    
             choseIndex = dataIndex[rand]
    
             h = sigmoid(np.sum(dataArr[choseIndex] * weights))
    
             error = h - labelList[choseIndex]
    
             weights = weights - alpha * error * dataArr[choseIndex]
    
             del (dataIndex[rand])
    
     return weights

接下来涉及的是分类函数这一过程，在其运作中将回归系数与特征向量作为输入参数用于计算相应的Sigmoid值输出结果；若所得Sigmoid值超过0.5，则最终输出结果为1。

复制代码

 '''

    
 进行分类
    
 '''
    
 def classifyVector(inX, weights):
    
     prob = sigmoid(np.sum(inX * weights))
    
     if prob > 0.5:
    
         return 1.0
    
     else:
    
         return 0.0

下一步是在测试集上计算分类错误率。由于程序中存在一定的随机性，在多次运行后会得到略有不同的结果。主要原因在于程序中存在一定程度的随机性。只有在回归系数完全收敛的情况下，算法才会得出稳定的结果。

复制代码

 '''

    
 在测试集上计算分类错误率
    
 '''
    
 def colicTest(trainWeights, testDataList, testLabelList):
    
     errorCount = 0  # 判断错误的数量
    
     testCount = 0  # 测试集总共的数量
    
     testCount = len(testDataList)
    
     for i in range(testCount):
    
         if int(classifyVector(np.array(testDataList[i]), trainWeights)) != 
    
                 int(testLabelList[i]):
    
             errorCount += 1
    
     errorRate = float(errorCount)/testCount
    
     return errorRate

最后只要调用如下的主函数即可获得10次运行之后的平均分类错误率

复制代码

 def main():

    
     numTests = 10
    
     errorSum = 0.0
    
     trainDataList, trainLabelList = loadDataSet("horseColicTraining.txt")
    
     testDataList, testLabelList = loadDataSet("horseColicTest.txt")
    
     for i in range(numTests):
    
         trainWeights = stocGradAscent(trainDataList, trainLabelList, 500)
    
         errorSum += colicTest(trainWeights, testDataList, testLabelList)
    
     print("%d次的平均错误率为%f"%(numTests, errorSum/numTests))

在运行该程序后，得到了平均分类错误率的数据（即输出结果）。通过优化stocGradAscent函数中参数numIter的值以及梯度下降算法中的步长设置等手段，则能够有效降低至约20%的平均分类错误率。

复制代码

    10次的平均错误率为0.329851

附：数据集及代码

这些代码和数据集都可以在GitHub上获取

不甘于「本该如此」，「多选参数」值得关注

全部评论 (0)

还没有任何评论哟~

逻辑回归实战：从疝气病症预测病马的死亡率

下面使用Logistic回归来预测患有疝病的马的存活问题，数据集中包含了368个样本和28个特征。数据集中包含了医院检测马疝病的一些指标，有的指标比较主观，有的指标难以测量，例如马的疼痛级别。另外需要...

从疝气病病症预测病马的死亡率（逻辑回归）

写在前面：我是「虐猫人薛定谔i」，一个不满足于现状，有梦想，有追求的00后 \quad 本博客主要记录和分享自己毕生所学的知识，欢迎关注，第一时间获取更新。 \quad 不忘初心，方得始终。

机器学习实战：逻辑回归示例----从疝气病症预测病马的死亡率

1\.准备数据：处理缺失值 2\.逻辑回归算法：算法来自：机器学习实战：逻辑回归LogisticRegression defstocGradAscent1dataMatrix,classLabels...

python实现logistics回归，以及从疝气病症预测病马的死亡率

logistics回归的目的是寻找一个非线性函数sigmod的最佳拟合参数。通过迭代来更改参数。选取出最佳拟合的参数。可以通过梯度上升算法，随机梯度上升算法，牛顿法，拟牛顿法等方法来实现。

【机器学习实战】-Logistic回归之从疝气病症预测病马的死亡率

【机器学习实战】Logistic回归之从疝气病症预测病马的死亡率 1.数据准备数据还存在一个问题，数据集中有30%的值是缺失的。下面将首先介绍如何处理数据集中的数据缺失问题，然后再利用Logisti...

Logistic回归示例：从疝气病预测病马的死亡率

目录准备数据：处理数据中的缺失值测试算法：用Logistic回归进行分类疝气病是描述马胃肠痛的术语。然而这种病并不一定源自马的肠胃问题，其他问题也可能引发马疝病。此外，除了部分指标主观和难以测...

使用Logistic回归预测疝气病马死亡率

1\.问题描述根据299个训练样本，进行Logistic回归，预测67个测试样本中的疝气病马是否死亡。值得注意的是，特征中有30%的值是缺失的。 2\.数据准备训练数据在horseColicTra...

徒手写代码之《机器学习实战》----逻辑回归算法(1)（从疝气病症预测病马的死亡率项目）

从疝气病症预测病马的死亡率说明: 将horseColicTraining.txt和horseColicTest.txt放在当前目录下。 importnumpyasnp importmatplotli...

机器学习算法（四）逻辑回归理论与python实现+经典示例（从疝气病预测病马的死亡率）

学习笔记更新什么是逻辑回归？简要介绍逻辑回归是用来解决线性回归问题的，它将线性回归得到的结果通过逻辑函数映射到[0,1]之间，因此称逻辑回归。逻辑回归模型主要用于解决二分类问题，是一个分类模型。

机器学习实战之逻辑回归实现预测病马的死亡率

在讲述完机器学习算法之后，本小节将会带领大家一步一步根据算法原理来自己实现算法设计，而不是直接调用现有的机器学习算法库，通过该阶段的学习与训练，相信你会对算法的原理有更深入的一个认识，对机器学习的认识...

是否确定退出登录?

逻辑回归实战：从疝气病症预测病马的死亡率

1. 准备数据：处理数据中的缺失值

2. 用Logistic回归进行分类

全部评论 (0)

相关文章推荐

逻辑回归实战：从疝气病症预测病马的死亡率

从疝气病病症预测病马的死亡率（逻辑回归）

机器学习实战：逻辑回归示例----从疝气病症预测病马的死亡率

python实现logistics回归，以及从 疝 气 病 症 预 测 病 马 的 死 亡 率

【机器学习实战】-Logistic回归之从疝气病症预测病马的死亡率

Logistic回归示例：从疝气病预测病马的死亡率

使用Logistic回归预测疝气病马死亡率

徒手写代码之《机器学习实战》----逻辑回归算法(1)（从疝气病症预测病马的死亡率项目）

机器学习算法（四）逻辑回归理论与python实现+经典示例（从疝气病预测病马的死亡率）

机器学习实战之逻辑回归实现预测病马的死亡率

python实现logistics回归，以及从疝气病症预测病马的死亡率