python预测糖尿病_Python数据挖掘 | 实战案例之预测糖尿病
二、LinearRegression使用方法
Linear regression model is located in the Sklearn.linear_model module. It primarily employs the fit method for training, where x represents data features and y denotes target categories.
sklearn中引用回归模型的代码如下:
输出的函数原型如下所示:
fit(x, y): 训练。分析模型参数,填充数据集。其中x为特征,y位标记或类属性。
该预测函数执行预测任务。此函数基于fit()得出的模型参数构建的模型,并对因变量(即分类属性)进行分类预测。最终该方法将输出对应的分类结果y_pred。
引用搬砖小工053"大神的例子:
运行结果如次所示:随后输出数据集,并同时调用sklearn库中的线性回归模型(LinearRegression())进行训练;具体步骤为:通过fit(X,Y)函数对数据进行训练;接着利用predict()方法计算出12英寸披萨的价格;最后定义X²数组用于预测其价格
输出的图形如下所示:
线性模型中的回归系数W位于其coef_属性中。
评估函数score(X, y, sample_weight=None)将返回一个小于1的分数,并且该分数可能为负数。
截距存储于intercept_属性中。
三、线性回归判断糖尿病
1.Diabetes数据集(糖尿病数据集)
糖尿病数据集涵盖来自442名患者的生理特征信息(年龄、性别、体重和血压)以及一年后的疾病分级指标。
接着导入所需的数据后,并将其划分为测试用例和训练样本两部分进行处理;其中测试集由最后m个样本构成(m=20),而用于训练的部分则取自前m-1个样本(即diabetes.data[:-20])。
结果显示如下:可以看到将441个样本分成两组进行训练回归模型(其中前357组用于训练回归模型),剩余165组用于预测测试集(其中测试集中的diabetes_x_test包含165个样本)。
2.完整代码
线性回归
线性回归
线性回归
线性模型:y = βX+b
线性模型:y = βX+b
X:数据 y:目标变量 β:回归系数 b:观测噪声(bias,偏差)
运行结果如下所示,包括系数、残差平方和、方差分数。
如图所示绘制图形,请问用点标记真实值的位置吗?用直线显示预测结果的趋势看起来很接近。
同时绘制图形时,想去掉坐标具体的值,可增加如下代码:
四、优化代码
在优化版本的代码中,并不是仅仅实现了基本功能,我们还对算法进行了多方面的改进。具体来说,在实现过程中我们做了以下几项重要改进:一是实现了梯度下降算法的支持;二是实现了正规方程求解的支持;三是实现了预测结果可视化展示的功能。此外,在算法实现过程中还解决了数据不完整时的插值问题,并对模型输出结果进行了概率校准处理。
运行结果如下所示:
绘制图形如下所示:
今日值班老师
“
马哥教育一号女神老师,懂IT更懂IT男。
专注解决Linux技术难题,是天生的技术专家。
如果你正好遇到了问题,为什么不找她求助一下?
豌豆
Linux面授班,报名优惠400元,只有10个名额
