Advertisement

新冠肺炎CT识别COVID-CT(一):新冠肺炎CT识别方法与CT数据集

阅读量:

前言


某一天早晨打开浏览器时, 我收到一条推送通知, 文中介绍了加州大学圣地亚哥分校及其Petuum研究团队开发了一个开源的COVID-19计算机辅助诊断(COVID-CT)数据集的项目. 我仔细查看了相关代码, 发现该开源代码非常适合我们这种初学者进行学习和实践应用, 可以将其作为前面几篇笔记内容的基础案例来使用. 此外, 疫情(coronavirus)作为当前全球关注的热点问题依然热度不减, 因此我决定深入研究一下. 这是我第一篇涉及专业领域的笔记, 专门用于介绍相关技术进展, 希望能为读者带来一些启发.

原代码及数据地址:UCSD-AI4H/COVID-CT


新冠肺炎CT识别


  • 病毒来源

病毒通过呼吸道进入人体内部的主要器官——肺部。其中绝大多数区域由肺泡构成,在这些结构内部充满了空气。由于空气对X射线的衰减较小(CT值较低),因此未受病毒感染时,在CT图像上显示为黑色区域。当新冠病毒到达人体内部后会穿过体内的屏障并附着于上皮细胞表面后引发免疫系统反应,在此过程中会产生大量的炎症细胞与病原体展开了激烈的对抗过程这会导致一系列生理变化例如气囊扩张液胶层渗出以及层间增厚等这些变化都会在CT图像中留下明显的特征性表现因此医生可以通过观察患者胸部区域的相关变化以及结合病原体特性来判断是否存在感染新冠病毒的风险

  • CT图特征

磨玻璃影

主要由于新冠病毒侵入并沿肺泡孔扩散引起磨玻璃影形成。这些变化包括导致 lung inflation, interstitial liquid leak, and septal thickening, 进而使得胸部 CT 显示密度增高呈白色。在病毒性感染中, 由于无细菌性渗出, 肺组织内仍充盈着空气, 因此通常不会出现实性改变(如 white patch), 而呈现模糊不清的磨玻璃影(blurred shadow)。通过观察磨玻璃影还可以观察到支气管(see Figure 1) (引用自广东省人民医院放射科行政副主任赵振军所做的主题报告)

在这里插入图片描述

图1.磨玻璃影

烟花式扩散

新型冠状病毒大小为60-140纳米,而肺泡孔的尺寸则为10-15微米。由此可见,肺泡孔比新冠病毒大约1到2个数量级。因此,在传播机制上,新冠状病毒主要通过肺泡孔进行扩散。磨玻璃影的表现通常呈现中心向四周扩散的特征,并且由于较少受到小叶阻挡,在形态上中间部分较为连通(见图2)。与之相比,细菌则较大,在传播过程中主要通过细支气管进行扩散,并沿着这些气管分布排列。

在这里插入图片描述

图2.烟花式扩散

细小网格或者条状影

如果具备前两个特征,并且对磨玻璃影区域进行详细观察(源自广东省人民医院放射科行政副主任赵振军主讲《新型冠状病毒感染CT早期诊断和鉴别诊断》),则可能观察到如图所示的微小网格结构(来自上述报告)。这些发现通常反映在人读片时的观察中。然而,在机器识图的过程中又是如何依据哪些特征进行判断的呢?这个问题值得深入探讨。

在这里插入图片描述

图3.细小网格影


COVID-CT数据


  • CT图片

在我们的代码库中包含了一个数据集,在该集合中标有COVID-19阳性特征的CT图像共有349例(Case),而标有COVID-19阴性特征的CT图像共有397例(Case)。这些数量超过了作者在公开报告中所列出的数据统计结果(Reference),推测可能后续又增加了部分样本。然而这些数据量仍然显得较为有限(Implication),基于如此少量的数据进行模型训练难以达到预期的效果(Expectation)。因此建议首先利用外部公开数据对模型进行预训练(Pre-training),随后再通过迁移学习的方法来提升对COVID-19识别任务的能力(Task))。

在这里插入图片描述

图4.图片一瞥

  • 数据集划分列表

作者采用了将数据集分配为训练集、测试集和验证集的方法。这些集合的形成是基于路径进行的,并未从物理层面进行划分。然而,在处理过程中根据不同文档中的存储位置归入到相应的对象中完成。

在这里插入图片描述

图4.路径列表文件

Type NonCOVID-19 COVID-19 Total
train 234 191 425
val 58 60 118
test 105 98 203

表1.数据集划分结果

  • 其他

另外有两个文件:COVID-CT-MetaInfo.xlsxNonCOVID-CT-MetaInfo.xlsx。其中包含了与患者相关的图像数据,包括患者的年龄信息和其他相关信息。其中有一些案例可能包含多张图像。不过这部分我们暂时不用处理,并且由于无法打开NonCOVID-CT-MetaInfo.xlsx这一文件而予以放弃处理


模型表现


图5源自作者在其数据集介绍链接一文中对模型性能的展示。该图表呈现出了较高的准确性(accuracy),然而其召回率(recall)指标尚显不足。至于通过使用作者提供的代码进行训练所得出的模型性能表现如何,则将在下文进一步探讨具体表现将待在后续章节中详细阐述

在这里插入图片描述

图5.模型表现

下篇文章:新冠肺炎CT识别COVID-CT(第2部分)| 深度之眼Pytorch实操练习(八):新冠肺炎CT影像识别技术(二分类 | 逻辑回归)


参考


视频来源:视频来源
科技新闻:科技新闻
GitHub资源:GitHub资源

全部评论 (0)

还没有任何评论哟~