基于机器学习的心脏病预测方法（11）——梯度提升机（GBM）

阅读量：

梯度提升机（GBM）是一种集成学习算法，基于Boosting方法，通过串行训练多个弱学习器来逐步优化模型。它通过拟合损失函数的负梯度并使用加法模型提升性能，常用于分类和回归任务。常用基学习器为决策树，具体实现包括XgBoost、LightGBM和CatBoost。该方法在医疗数据分析中表现优异，准确率高达80.33%。通过混淆矩阵、精确率、召回率、F分数、FN值、ROC曲线和AUC指标等多方面评估，模型在诊断任务中表现出良好的性能，AUC值为0.915，表明其分类能力较强。

一、梯度提升机介绍

GBM（Gradient Boosting Algorithm）算法是一种基于梯度的提升算法。其核心思想是通过依次生成多个弱学习器，每个弱学习器的目标是估计并纠正前一个累加模型对损失函数的负梯度方向的拟合，从而逐步降低整体模型的损失值。此外，该算法通过不同权重对基学习器进行线性集成，以充分利用表现优异的个体模型。需要注意的是，GBM属于加法模型，其全称是Multiplicative Additive Regression Trees（ MART）。

主流的基学习器多为树模型，基于决策树的技术发展而来的算法被称为GBDT（Gradient Boosting Decision Tree）。这些工具如XgBoost、LightGBM、CatBoost等，均基于GBDT（采用CART树）的技术发展而来。

GBM梯度推进方法（或推进式提升方法）是一种集成学习模型（Ensemble）。GBM（Gradient Boosting Machine）方法属于提升方法（Boosting）范畴。GBM的核心理念是通过基于损失函数的梯度下降方向逐步构建新的基学习器，最终通过集成多个基学习器使模型的损失函数逐步降低，从而实现模型的持续优化。

二、核心代码

首先需要导入相应库和数据集：

复制代码

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    import warnings
    warnings.filterwarnings('ignore')
    %matplotlib inline
    data = pd.read_csv('heart.csv', sep=',')
    data.head()

运行结果：

然后划分训练集和测试集（训练集80%，测试集20%）：

复制代码

    from sklearn.model_selection import train_test_split
    
    predictors = data.drop("target",axis=1)
    target = data["target"]
    
    X_train,X_test,Y_train,Y_test = train_test_split(predictors,target,test_size=0.20,random_state=0)
    print("Training features have {0} records and Testing features have {1} records.".\
      format(X_train.shape[0], X_test.shape[0]))

Training features correspond to 242 records, and also, Testing features consist of 61 records.

逻辑回归核心代码如下：

复制代码

    from sklearn.ensemble import GradientBoostingClassifier
    gbc =GradientBoostingClassifier()
    gbc.fit(X_train, Y_train)
    
    y_pred_gbc = gbc.predict(X_test)

准确率：

复制代码

    from sklearn.metrics import accuracy_score
    score_gbc = round(accuracy_score(y_pred_gbc,Y_test)*100,2)
    print("GBM算法的准确率是: "+str(score_gbc)+" %")

运行结果：
GBM算法的准确率是: 80.33 %

查看各个指标的重要性：

复制代码

    n_features = X_train.shape[1]
    plt.barh(range(n_features), gbc.feature_importances_, align='center')
    plt.yticks(np.arange(n_features), X_train.columns)
    plt.xlabel("Feature importance")
    plt.ylabel("Feature")
    plt.ylim(-1, n_features)
    plt.show()

运行结果：

三、评价指标

3.1 混淆矩阵

复制代码

    from sklearn.metrics import confusion_matrix
    matrix= confusion_matrix(Y_test, y_pred_gbc)
    sns.heatmap(matrix,annot = True, fmt = "d")

运行结果：

3.2 预测分数

复制代码

    from sklearn.metrics import precision_score
    precision = precision_score(Y_test, y_pred_gbc)
    print("Precision: ",precision)

运行结果：
Precision: 0.8235294117647058

3.3 召回率

复制代码

    from sklearn.metrics import recall_score
    recall = recall_score(Y_test, y_pred_gbc)
    print("Recall is: ",recall)

运行结果：
Recall is: 0.8235294117647058

3.4 F分数

复制代码

    print((2*precision*recall)/(precision+recall))

运行结果：
0.8235294117647058

3.5 FN（false negative）

复制代码

    CM = pd.crosstab(Y_test, y_pred_gbc)
    TN=CM.iloc[0,0]
    FP=CM.iloc[0,1]
    FN=CM.iloc[1,0]
    TP=CM.iloc[1,1]
    fnr = FN*100/(FN+TP)
    fnr

运行结果：
17.647058823529413

3.6 ROC曲线

复制代码

    from sklearn.metrics import roc_curve, auc
    
    y_pred=gbc.predict(X_test)
    y_proba=gbc.predict_proba(X_test)
    fpr, tpr, thresholds = roc_curve(Y_test, y_proba[:,1])
    
    fig, ax = plt.subplots()
    ax.plot(fpr, tpr)
    ax.plot([0, 1], [0, 1], transform=ax.transAxes, ls="--", c=".3")
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.0])
    plt.rcParams['font.size'] = 12
    plt.title('ROC curve for diabetes classifier')
    plt.xlabel('False Positive Rate (1 - Specificity)')
    plt.ylabel('True Positive Rate (Sensitivity)')
    plt.grid(True)

运行结果：
略

3.7 AUC指标

复制代码

    auc(fpr, tpr)

运行结果：
0.915032679738562

全部评论 (0)

还没有任何评论哟~

基于机器学习的心脏病预测方法（11）——梯度提升机（GBM）

目录一、梯度提升机介绍二、核心代码三、评价指标 3.1混淆矩阵 3.2预测分数 3.3召回率 3.4F分数 3.5FN（falsenegative） 3.6ROC曲线 3.7AUC指标一、梯度...

基于机器学习的心脏病预测方法（12）——极端梯度提升树（eXtreme Gradient Boosting）

目录一、极端梯度提升树介绍二、核心代码三、评价指标 3.1混淆矩阵 3.2预测分数 3.3召回率 3.4F分数 3.5FN（falsenegative） 3.6ROC曲线 3.7AUC指标一、...

梯度提升机（GBM）：sklearn中的预测神器

🌟梯度提升机（GBM）：sklearn中的预测神器梯度提升机（GradientBoostingMachine，简称GBM）是一种流行的集成学习算法，以其出色的预测性能和灵活性而闻名。在sklear...

【拓展】基于机器学习的心脏病预测方法（14）——心脏病数据集补充

目录前言 1、数据集1 1.1数据集介绍 1.2数据集属性 2、数据集2 2.1数据集介绍 2.2数据集属性 3、数据集3 3.1数据集介绍 3.2数据集属性 4、下载地址前言在实际研究过程中，...

心律守护基于机器学习的心脏病预测

心律守护基于机器学习的心脏病预测心律守护基于机器学习的心脏病预测项目背景与意义项目数据与特征数据分析与预处理机器学习模型建立与评估结语心律守护基于机器学习的心脏病预测在当今数字化时代，...

【机器学习】必会算法之：梯度提升机（GBM）

梯度提升机 1、引言 2、梯度提升机 2.1定义 2.2原理 2.3实现方式 2.4算法公式 2.5代码示例 3、总结 1、引言小屌丝：鱼哥，你能不能在详细的拓展一下GBM。小鱼：我在《【机器学习...

java基于机器学习的心脏病预测系统

项目介绍基于机器学习得心脏病预测系统通过对机器学习心脏病数据大数据分析统计系统的建设以实现机器学习心脏病数据分析统计功能。通过对心脏疾病变化市场的充分研究，结合自身技术储备情况，设计并开发了一套基于...

基于机器学习的心脏病预测方法（9）——支持向量机（SVM）

目录一、支持向量机二、核心代码三、评价指标 3.1混淆矩阵 3.2预测分数 3.3召回率 3.4F分数 3.5FN（falsenegative） 3.6ROC曲线 3.7AUC指标一、支持向量...

基于机器学习的心脏病预测方法（5）——随机森林（Random Forest）

目录一、随机森林 1.1随机森林介绍 1.2随机森林算法介绍 1.3随机森林预测伪代码二、核心代码三、评价指标 3.1混淆矩阵 3.2预测分数 3.3召回率 3.4F分数 3.5FN（false...

基于机器学习的心脏病预测方法（8）——决策树（Decision Tree）

目录一、决策树介绍二、核心代码三、决策树可视化 3.1设置深度为1 四、评价指标 4.1混淆矩阵 4.2预测分数 4.3召回率 4.4F分数 4.5FN（falsenegative） 3.6RO...

是否确定退出登录?

基于机器学习的心脏病预测方法（11）——梯度提升机（GBM）

目录

一、梯度提升机介绍

二、核心代码

三、评价指标

3.1 混淆矩阵

3.2 预测分数

3.3 召回率

3.4 F分数

3.5 FN（false negative）

3.6 ROC曲线

3.7 AUC指标

全部评论 (0)

相关文章推荐

基于机器学习的心脏病预测方法（11）——梯度提升机（GBM）

基于机器学习的心脏病预测方法（12）——极端梯度提升树（eXtreme Gradient Boosting）

梯度提升机（GBM）：sklearn中的预测神器

【拓展】基于机器学习的心脏病预测方法（14）——心脏病数据集补充

心律守护 基于机器学习的心脏病预测

【机器学习】必会算法之：梯度提升机（GBM）

java基于机器学习的心脏病预测系统

基于机器学习的心脏病预测方法（9）——支持向量机（SVM）

基于机器学习的心脏病预测方法（5）——随机森林（Random Forest）

基于机器学习的心脏病预测方法（8）——决策树（Decision Tree）

心律守护基于机器学习的心脏病预测