机器学习糖尿病视网膜病变数据据分析
糖尿病视网膜病变数据据分析
0 简介
个人作品集
1 任务目标
这次任务的数据集由来自糖网的四个等级的眼底图像构成,并基于PyTorch这一深度学习框架来实现眼底图像分类的任务。


2 数据处理
1.数据分析
通过对数据统计可以得到(已经划分的训练集):

图片种类的分布呈现一定程度的不均衡状态同时整体数量也较为有限为此我们采用了一种较为基础的数据增强策略其中最基础的方式是通过图像反转来实现数据扩展我们将一类图像分别进行水平和垂直翻转处理后使其数量达到原来的三倍针对二类及三类图像仅进行垂直翻转处理使其数量增加至原来的两倍而对于零类图像则无需进行任何处理

这是处理后的训练集分布。
我是7:3分割的训练集和验证集
2.模型训练
2.1模型准备
使用的模型是torchvision.model里的经典模型和预训练好的参数。
from torchvision import models as models
# inception_v3,ResNet50
model = models.resnet50(pretrained=True)
#将pretrained置为true,意思是使用已经预训练好的参数。
model.fc#打印模型全连接层的输入和输出参数
#Linear(in_features=2048, out_features=1000, bias=True)

因为我们是四分类所以调整模型输出为:
model.fc = torch.nn.Linear(in_features=2048, out_features=4, bias=True)
model.aux_logits = False #这个设置是InceptionV3这个模型需要设置的,
#不知道什么意思,但不设置会报错。
2.2参数设置
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device=device)
learning_rate = 1e-4
num_epochs = 10
batch_size = 32
optimizer = torch.optim.Adam(model.parameters(), lr = learning_rate)
loss_criterion = torch.nn.CrossEntropyLoss()
2.3读取数据并转换为tensor类型
在这一部分中, 我定义了一个名为mydataset的新类, 并使其继承自父类Dataset, 以便获取可迭代的数据对象. 在此过程中, 我同时实现了对图片的处理以及transform转换的相关功能. 无需赘述, 如果您不太了解 dataset 的细节, 可以参考我之前介绍过的 dataset 类. 直接附上代码块.
my_transform = transforms.Compose([
transforms.Resize((299,299)),
transforms.ToTensor(),
# transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
#这里进行transform是因为inception_v3模型的输入是(299*299)
#resnet就不需要是(299*299)了
class retinaDataset(Dataset):
def __init__(self, imagepath=r"D:\course\junior_2\deep_learning\third\train", csv_path=" ",transform=my_transform):
self.df = pd.read_csv(csv_path)
# if (total is not None):
# self.df = self.df[:total]
self.transform = transform
self.imagepath = imagepath
def __len__(self):
return len(self.df)
def __getitem__(self, index):
img_path = os.path.join(self.imagepath, self.df.iloc[index].image +".png")
img = Image.open(img_path)
if(self.transform):
img = self.transform(img)
return img, torch.tensor(self.df.iloc[index].Retinopathy_grade)
train_dataset = retinaDataset(csv_path=r"D:\course\junior_2\deep_learning\mythird\train.csv")
train_dataloader = DataLoader(dataset=train_dataset,
batch_size=batch_size, shuffle=True)
#这里调用Dataloder函数对数据进行分组并打乱顺序。

2.4开始训练
for epoch in range(num_epochs):
for data, target in tqdm(train_dataloader):
data = data.to(device=device)
target = target.to(device=device)
score = model(data)
optimizer.zero_grad()
loss = loss_criterion(score, target)
loss.backward()
optimizer.step()
print(f"for epoch {epoch}, loss : {loss}")

2.5测试模型准确率
def f_check_accuracy(model_i,model_r, loader):
model_i.eval() #模型inception_v3
model_r.eval() #模型resnet50
num0=0
num1=0
num2=0
num3=0
total0=0
total1=0
total2=0
total3=0
correct_output = 0
total_output = 0
with torch.no_grad(): #反向传播时不再自动求导,节省显存。
for x, y in tqdm(loader):
x = x.to(device=device)
y = y.to(device=device)
score_i = model_i(x)
score_r = model_r(x)
_,predictions_i = score_i.max(1)
_,predictions_r = score_r.max(1)
for i in range (len(y)):
if(y[i]==0):
total0=total0+1
if(predictions_i[i]==0):
num0=num0+1
elif(y[i]==1):
total1=total1+1
if(predictions_r[i]==1):
num1=num1+1
elif(y[i]==2):
total2=total2+1
if(predictions_r[i]==2):
num2=num2+1
elif(y[i]==3):
total3=total3+1
if(predictions_i[i]==3):
num3=num3+1
correct_output =num0+num1+num2+num3
total_output =total0+total1+total2+total3
# model.train()
print("0类准确率",num0/total0,"correct:",num0,"total:",total0)
print("1类准确率",num1/total1,"correct:",num1,"total:",total1)
print("2类准确率",num2/total2,"correct:",num2,"total:",total2)
print("3类准确率",num3/total3,"correct:",num3,"total:",total3)
print(f"out of {total_output} , total correct: {correct_output} with an accuracy of {float(correct_output/total_output)*100}")

解释一下我为什么要把inception_v3和resnet50结合到一起。

对比结果显示v3与resnet50在各类别准确率上存在差异。因此建议将这两个模型整合使用以提升整体准确率。

可以看出准确率提升了约20%,表现相当显著。我们可以通过kaggle获取额外的数据增强训练集质量,对于四分类任务而言,仅有的1000张图片数量有限。
3 数据分析
数据集描述
1. 下载位置已提供:messidor_features.arff
2. 数据集开头包含一些非必要信息,在后续处理中无需处理这些信息,并且为了简化后续操作(如使用pd.read_csv()函数读取),我会删除这些多余内容。

当然不删也是可以的,有专门的函数读取.arff文件
from scipy.io import arff
import pandas as pd
df = arff.loadarff('messidor_features.arff') #读取出来是一个元组
dataframe = pd.DataFrame(df[0])
3. 该数据集messidor_features.arff基于Messidor
图像集抽取了相关特征信息,并用于判断给定图像中是否存在糖尿病视网膜病变的表现。每个特征均能反映所检测到的眼底病变及其所在解剖部位的相关描述信息或影像级别的标记符号。本数据集共计包含了20个属性指标,在分类任务中以最后一列为标记字段(如图)。

在获得对数据集的初步认识之后,请来进行初步的探索性分析。然后检查data.info()以识别是否存在缺失值以及明确数据类型。
import pandas as pd
path='E:/Python_file/zuoye/messidor_features.arff'
Cnames = ['x0', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x9',
'x10', 'x11', 'x12', 'x13', 'x14', 'x15', 'x16', 'x17', 'x18', 'y']
#删掉与数据集无关的内容
data=pd.read_csv(path,header=None,names=Cnames)
print('数据集基础信息:')
print(data.info())

观察到数据中不存在缺失值。进一步统计发现,标记为'1'的数据共有611条,占总数据量的53.1%;标记为'0'的数据有540条,占46.9%。这表明正例数据与负例数据的数量分布较为平衡。
建议使用pandas-profiling库,它能够快速生成对数据集的分析报告并提供详细信息,请确保已正确安装相关依赖库。如果尚未安装,请运行pip install pandas-profiling命令进行安装。
import pandas_profiling
report= pandas_profiling.ProfileReport(data)
report.to_file("output_file.html")
生成一个互动式.html文件通常会包含对数据类型进行检测;计算数据中的唯一取值及其出现频率,并统计缺失数据的数量;并进行分位数分析以获取最小值、最大值、四分位数及中位数等统计指标;同时也会执行描述性统计以计算平均数、众数以及峰度与偏度等参数;最后还会生成变量间相关关系的热力图来展示Spearman秩相关系数(ρ)的分布情况。
ρ的取值范围在-1至+1之间表示负向至正向的相关强度:-1表示完全负向单调相关性;0表示无单调相关性;+1则表示完全正向单调相关性。

三. 方法介绍
关于逻辑回归的工作原理已有诸多详述,无需赘述,重点阐述代码实现.利用sklearn库提供的LogisticRegression()即可完成训练与预测.
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
X=data[data.columns[0:19]] #提取特征,不要标签
y=data['y'] #train_size=0.8,80%的训练集占比
x_train,x_test,y_train,y_test=train_test_split(X,y,train_size=0.8,random_state=90)
lr=LogisticRegression(max_iter=3000)
clm=lr.fit(x_train,y_train)
print('对测试集的预测结果:')
#输出预测结果、预测结果的结构类型及尺寸
result=clm.predict(x_test)

我们的模型中LogisticRegression()的参数较多,但实际需要进行配置的参数较少。我们使用的数据集具有均匀分布的特点,在这一场景下,默认设置类别权重参数class_weight是合理的选择;至于求解器参数solver,建议使用默认的’solver=liblinear’即可满足需求;而对于最大迭代次数参数max_iter,我们将其设定为3000次以确保模型在训练过程中不会过快终止迭代过程
四. 结果和模型评价及可视化
1.本研究中的检测结果显示如图所示,其中标记为1表示存在病变,标记为0表示无病变状态。需要注意的是,在划分训练集与测试集时,random_state设置为不同的数值会导致生成的测试集有所不同,在本研究中采用random_state=90进行实验,如果更换该参数的值进行实验将会导致预测结果发生变化,但不会影响模型评估结果

模型评价指标繁多,在具体应用中通常涉及多个关键指标如召回率、精确度以及准确率等多个维度进行考量;其中F值用于衡量分类器性能的重要统计量之一;此外还有判定系数R²这一重要参数可反映变量间的相关程度;而AUC面积则代表ROC曲线下所围区域的具体数值(Area Under Curve)。借助分类报告函数(ClassificationReport),能够迅速完成评估流程。
from sklearn.metrics import classification_report
print('性能报告;')
print(classification_report(y_test,result))
confusion = metrics.confusion_matrix(y_test, result)

3. 以FPR为横轴,TPR为纵轴,绘制ROC曲线,并由曲线计算得AUC=0.77。
from sklearn.metrics import roc_curve,auc
from matplotlib import pyplot as plt
fpr, tpr, thr = roc_curve(y_test, result, drop_intermediate=False)
fpr, tpr = [0] + list(fpr), [0] + list(tpr)
plt.plot(fpr, tpr)
plt.title('ROC curve for diabetes classifier')
plt.xlabel('False Positive Rate (1 - Specificity)')
plt.ylabel('True Positive Rate (Sensitivity)')
plt.grid(True)
plt.show()
print('AUC:'+ str(auc(fpr,tpr)))


该模型的表现尚可。
4. 从逻辑回归模型中提取各变量对应的回归系数值,并据此绘制反映其影响大小的条形图。
print('逻辑回归各变量系数:')
print(clm.coef_)
coef_lr = pd.DataFrame({'var' : x_test.columns,
'coef' : clm.coef_.flatten()
})
index_sort = np.abs(coef_lr['coef']).sort_values().index
coef_lr_sort = coef_lr.loc[index_sort,:]
# 水平柱形图绘图
fig,ax=plt.subplots()
x, y = coef_lr_sort['var'], coef_lr_sort['coef']
rects = plt.barh(x, y, color='dodgerblue')
plt.grid(linestyle="-.", axis='y', alpha=0.4)
plt.tight_layout()
#添加数据标签
for rect in rects:
w = rect.get_width()
ax.text(w, rect.get_y()+rect.get_height()/2,'%.2f' %w,ha='left',va='center')


将线性回归的结果代入到sigmoid函数中进行计算(即应用sigmoid函数对线性回归结果进行归类),因此,在逻辑回归模型中各变量的系数依然存在

观察到对糖尿病视网膜病变检测结果影响最为显著的五个关键指标分别为x₁₄、x₁、x₂、x₀和x₁₅;这些指标的具体意义均在前述章节中有所阐述。通过深入分析可明确指出这些变量是糖尿病视网膜病变的重要诱因。
项目效果:
毕业设计 糖尿病视网膜预测
项目获取:
✍🏻作者简介:机器学习算法、深度学习模型以及卷积神经网络在图像处理中的应用等技术领域。
🚀B站上的实战项目介绍:https://space.bilibili.com/364224477
😄 如果觉得对你有帮助的话,请记得在评论区💬点赞👍 收藏📚并加关注🌟
🤵♂代码获取途径:@个人主页
