乳腺癌病理图像分类
在超像素病理图片上检测癌症的转移
本文是对Detecting Cancer Metastases on Gigapixel Pathology Images的翻译,有不对之处请指出
**摘要:**每年,美国有超过23万乳腺癌患者的治疗方案取决于位于乳腺的癌症是否发生转移.目前,对癌症转移的检测是由浏览过大量生物组织的病理专家执行的.这个过程耗费大量精力并且易出错.我们提出一个框架,它可以自动在100000x100000像素的超像素显微图像上检测并定位出100x100像素的肿瘤。我们利用了一个卷积神经网络框架进行实验并且在病变肿瘤检测任务的挑战赛上的Camelyon16数据集上取得了最好的成绩。在8个假阳性的图片上,我们对肿瘤的侦测率达到92.4%,与之相对应的,之前的最好的自动检测方法达到82.7%的检测率。相比较而言,病理学家最好的准确率为73.2%。我们在Camelyon16数据集和一个独立的110张图片数据集上达到了基于图片水平的AUC指标97%以上的分数。除此之外,我们发现在Cameloyn16的训练集中有两张图片被错误的标记成正常。我们的方案在一定程度上可有效减少癌症转移检测中的假阴性。
关键词 :神经网络、病理、癌症、深度学习
1、引言
对乳腺癌的治疗和管理是取决于相应的病理期。乳腺癌分期的重要组成部分包括对乳腺附近的淋巴节点进行纤维测试以验证癌症是否发生扩散或转移。这种操作要求病理学家具有较高的专业技术并且费时、易出错,尤其是没有或小肿瘤的淋巴结点。淋巴结点癌症转移的计算机辅助诊断不仅可以提高诊断的准确率、速度,还可以提高转移诊断的一致性。
近年来,深度卷积网络在广泛的机器视觉任务中取得了准确度上的很大提升,例如:图像识别、目标检测、语义分割等方面。同时,深度卷积网络已经有成效地应用于医疗保健。
本文提出一个CNN框架来诊断淋巴结的乳腺癌转移。我们在文献[23]的基础上利用一个最新的Inception框架[20],再加上合理的图片块采样和数据增强。尽管使用步幅128(而不是4)进行前向推理,我们将8个假阳性的图片的误差率减小了一半。同时我们发现有些方法并不能带来改观:(1)一种模仿病理学家对生物组织的检测的多尺度方法;(2)在ImageNet图像识别上预训练的模型;(3)颜色归一化。最终我们结合随机森林和[23]中提出的特征工程发现最大化函数对整张医学图片的分类很有效。
相关工作 一些较好的研究已经将深度学习应用到病理学中。Camelyon16挑战赛的冠军在有8个假阳性的图片上获得了75%的准确度,并且在图片水平的分类AUC值达到92.5%。作者用一个预采样的图片块数据集来训练Inception模型,并且用28个人工特征来训练一个随机森林分类器来预测每张图片的类型。第二个模型在一个更难的例子上进行训练,并且用两个模型预测的平均值来产生预测点。这个团队通过使用颜色归一化、加入数据增强、将移动步长从64放慢到4,这些操作最终将评价指标分别提升到82.7%和99.4%。Camelyon的组织者也曾在小数据集上训练过CNN用来检测淋巴结中的乳腺癌和前列腺癌组织。文献[12]运用CNN做分割或检测细胞核、上皮、小管、淋巴细胞、有丝分裂、浸润性导管癌和淋巴瘤。文献[7]表明CNN达到了更高的F1分值并且平衡了浸润性导管癌的准确率。CNN也被用于检测有丝分裂,并且赢得了ICPR12和AMIDA13检测有丝分裂竞赛的胜利。其他的运用机器学习来预测癌症病理的例子包括预测非小细胞肺癌的预后。
2、方法
对于一张超像素病理图片,我们的目的是判断他是否包含肿瘤并且能够帮病理专家定位肿瘤的位置。这个用例和像素精确度标注的难度使得监测和定位肿瘤比像素级别的分割显得更重要。由于病理图像的尺寸很大并且数量(270)有限,我们用从如图一所示的整张图像上提取的小的图像块来训练模型。同时,我们对图片中滑动窗口中的块进行推断生成一个肿瘤概率热图。对于每张图片我们记录概率热图中的最大值最为图片水平的肿瘤预值。
我们利用InceptionV3作为实验框架,它的默认输入尺寸为299x299,他在另一个领域已经做过预训练具有一定的初始化参数。对于每个输入的图像块我们预测中间的128x128区域的类别。一个128像素的区域可以跨越几个肿瘤细胞,并且在文献[16]中也有用到。当中心区域中至少有一个像素被标记为肿瘤时,我们标记一个图像块为肿瘤。我们通过保持网络的层数不变而减少每层的滤波器数量来探索参数数量的影响。我们把这种模型称为小模型。我们用多尺度方法来进行实验,即为利用在多级放大倍数的图片上相同中心区域的图片块。由于初步试验并未显示使用多达4个放大倍数的好处,因此我们只展示最多两个实验的结果。
由于图片块的数量很大并且肿瘤类别的不均衡使得对我们的模型进行训练和评估颇具有挑战性。每张图片包含10000到400000张图片块(中位数为90000)。然而,每张肿瘤图片包含20到150000个肿瘤图片块(中位数为2000),相对应的肿瘤图片块的占比范围在0.01%到70%(中位数为2%)。为了避免偏差,对含有更多图像块的图片(正常和肿瘤)都要求仔细取样。首先采用等概率来选取正常或肿瘤图片。然后随机选择包含这些类别补丁的图片,并从图片中取得块样本。相比一些现有的方法,他们采用预先采样从图片中取得一些图像块,这限制了预训练中图像块的宽度。
为了弥补肿瘤图像块的不足,我们采用了一些图像增强的方法。首先我们将输入图像块旋转了90度的4倍,运用左右翻转和复制旋转。所有8个方向都是有效的,因为病理图片没有规范的方向。接着我们用Tensorflow图像库(tensorflow.image.random_X)来扰动颜色:亮度的最大增量为64/255,饱和度的最大增量为0.25,色调的最大增量为0.04,对比度的最大增量为0.75.最后我们在图像块的提取过程中增加了抖动,使得每个图像块都含有高达8个像素的x、y偏移。使用我们的验证集对颜色扰动和抖动做了轻微的调整。像素值都被剪裁到[0,1],缩放到[-1,1]。
我们用步长为128的滑动窗在每张图片上推进以匹配中心区域的尺寸。对于每个图像块我们旋转和左右翻转来获得8个方向的预测,最后平均8个预测。
执行细节 我们使用TensorFlow [2]中的随机梯度下降训练我们的网络,其中8个副本在NVIDIA Pascal GPU上运行,具有异步梯度更新和每个副本32个批量大小。 我们使用RMSProp [21],动量为0.9,衰减为0.9和= 1.0。 初始学习率为0.05,每200万个例子的衰减为0.5。 为了改进ImageNet上预训练的模型,我们使用了0.002的初始学习率。
3、评价和数据库
我们使用两个Camelyon16评价标准。第一个标准就是利用AUC来衡量基于图片水平的分类器。由于假阳性会出现一张图片就有10000个图像块的预测值,这使得这该标准具有一定的挑战性。我们使用bootstrap的方法获得了95%的置信度。
第二个标准就是FROC,用它来衡量肿瘤的检测与定位结果。首先从热图中生成一个坐标和相对应的预测值的列表。所有落在被标记肿瘤区域内的坐标被保留,不在标记的肿瘤区域内的被视作假阳性,我们用这些值去计算ROC。FROC的定义为FP/image_num.该指标的挑战性在于记录每个假阳性区域的多个点会快速的侵蚀分数。我们专注于FROC而不是AUC因为肿瘤的数量几乎是图片数量的两倍,这提高了评价指标的可靠性。与AUC类似,我们通过计算FROC超过2000个预测点的自举样本来报告95%置信区间。 此外,我们报告每张幻灯片8 FP(“@ 8FP”)的灵敏度,以评估假阴性率。
为了生成FROC计算的点,Camelyon获胜者[23,1]对热图进行了阈值处理以产生位掩码,并报告了位掩码中每个连通分量的单个预测。 相比之下,我们使用类似于[6]的非最大值抑制方法重复两个步骤,直到热图中的值没有保持在阈值t以上:(1)报告最大和相应的坐标,以及(2)设置所有值 半径r最大为0.因为我们将此过程应用于热图,r具有128像素的单位。 t控制报告的点数,对FROC没有影响,除非在8 FP之前曲线平稳。 为避免错误地丢弃肿瘤预测,我们使用保守阈值t = 0.5。
数据集 我们的工作使用了Camelyon16数据集[1],其中包含400个数据集图像:带有像素级注释的270张图像,以及130张未标记的图像作为测试集.3我们将270张图像分成了用于超参数调整的训练集和验证集(附录)。 通常,只有一小部分图像包含感兴趣的生物学背景,背景和脂肪包含其余部分(例如,图2)。为了减少计算,我们删除了背景片(灰度值> 0.8 [12]),并进行了验证 视觉上不丢弃淋巴结组织。
附加评价 NHO-1我们从20位病人身上提取86个生物组织块并制成110张H&E染色的淋巴结数字图片,将这些图片作为附加的验证集。这些图片带有病人级别或者组织块级别的标签。为了判定每张图片的类别,由认证委员会的病理专家在不知情的情况下对所有存在差异的地方进行判断,并且简要的审阅110张图片。
4、实验和结果
为了进行图像级别的分类,目前最好的方法就是用随机森林作用于热图预测值中提取的特征。我们不能进行图片水平的训练,因为100%的验证集AUC使得无法对内部改进进行评估。此外,每张图片的热图的最大值可能达到AUC>97%与当前的最佳结果在统计上没有区分。
对于肿瘤水平分类,我们发现通过屏蔽FP区域,当FROC适度(<80%)时,连通分量方法[23]在FROC中提供115%的增益。 然而,这种方法对阈值敏感(高达10-20%的方差),并且可以通过将多个附近肿瘤分组为一个来混淆模型改进的评估。 相比之下,我们的非最大值抑制方法对4到6之间的r相对不敏感,尽管不太准确的模型受益于使用验证集调整r(例如,8)。 最后,我们在较大的肿瘤(巨大转移)上达到100%FROC,表明大多数假阴性由较小的肿瘤组成。
前人的工作表明在其他领域的预训练可以改善网络性能。然而我们发现预训练可以很大的提升收敛的速度,但是却不能改善FROC。这个也许是由于病理图片和自然图片两者之间存在巨大的差距,才限制了它的迁移性能。此外,我们的数据集的容量(1000000张图片块)和数据增强允许在没有预训练的情况下训练出准确的模型。
接着,我们来研究模型大小的影响。尽管我们最初的动机是改善模型的运行时间,但我们意外的发现只有3%参数的精简Inception模型架构达到与完整模型同样的运行结果。因此,后面的实验都用小模型进行。
受病理学家在多个放大倍数下检测图片的工作过程的启发,我们使用多尺度方法来获取上下文信息。然而,我们发现在较低放大倍数下将40X与额外输入相结合没有性能优势(图3)。 然而,这些组合输出更平滑的热图(图4),可能是因为CNN的平移不变性和相邻斑块的重叠。 这些视觉改进可能具有欺骗性:40X模型中的一些斑点揭示了被肿瘤包围的小肿瘤区域。
图1和图3突出了图像的可变性。 虽然目前领先的方法展示了颜色标准化的改进,但我们的实验显示没有任何好处(附录)。 这可以通过我们广泛的数据扩充来解释,从而使我们的模型学习颜色不变的特征。
最后,我们以两种方式试验了集合模型。 首先,对8个轮换/翻转的平均预测产生了几个百分点的指标改进。 其次,在经过独立训练的模型上进行整合会产生额外但较小的改进,并且在3个模型之后收益递减。
额外验证 我们还在另外110张幻灯片上测试了我们的模型,这些幻灯片在不同的扫描仪上进行数字化,来自不同的患者,并使用不同的组织制备方案进令人鼓舞的是,我们获得了97.6(93.6,100)的AUC,与我们的Camelyon16测试集性能相当。
定性评估 我们在两个“正常”载玻片中发现肿瘤:086和144.幸运的是,挑战组织者证实两者都是数据处理错误,患者未受影响。值得注意的是,这两张幻灯片都在我们的训练集中,这表明我们的模型对标签噪音具有相对的弹性。此外,我们发现了另外7个带有不完整注释的肿瘤切片:5个在训练中,2个在验证中(附录)。我们的预测样本和相应的补丁显示在附录中。
局限性 我们的错误与离焦组织(巨噬细胞,生发中心,基质)和组织制备伪影有关。通过更好的扫描质量,组织准备以及针对不同组织类型的更全面的标签,可以减少这些错误。此外,由于我们的验证集上的FROC和AUC接近完美,我们无法详尽地调整我们的超参数。我们计划进一步发展我们在更大数据集上的工作。
5、结论
我们的方法在检测千兆像素病理图片中的小肿瘤的挑战性任务中获得了最好的敏感度,将假阴性率降低至病理学家的四分之一,并且不到先前最佳结果的一半。 我们在两个独立的测试集中进一步实现了病理学家级图片级AUC。我们的方法可以提高评估乳腺癌病例的准确性和一致性,并可能改善患者的预后。 未来的工作将集中在使用更大数据集的改进。



附件2.标签处理
我们的实验使用二元标记:如果中心128×128区域中的至少一个像素注释为肿瘤,则贴片为阳性。 我们还在初步实验中探索了另一种“软标签”方法,将标签分配为中心区域中肿瘤像素的分数。 但是,我们发现阈值标签产生了更好的性能。 因为FROC奖励同等地检测所有大小的肿瘤,这可能反映了被训练的模型将较低值分配给较小的肿瘤(平均而言,每个贴片的较小部分包含肿瘤细胞)。
