[MICCAI2019] Pick-and-Learn: Automatic Quality Evaluation for Noisy-Labeled Image Segmentation
作者信息
Haidong Zhu, Tsinghua 电机系
文章针对医学影像中标注质量的痛点进行了探究,pick & learn,顾名思义,文章用到的解决方法为:对每个mini-batch中样本的标注质量进行评分,然后根据标注质量高低对相应样本的loss进行加权,得到mini-batch的最终loss后再反向传播,更新网络。
Method
如下为方法框图,包含3个主要模块:segmentation module,quality awareness module(QAM),overfitting control module (OCM)

QAM(quality awareness module)
QAM是与segmentation module平行的分支,它的输入为图像+label(n+1通道数),结构为VGG网络,最后一层为average pooling(AVP)层,输出batch中每个sample 的 标注质量分数,再接上一个 softmax 层,使得一个batch中分数总和为1.
OCM (overfitting control module)
上面的QAM存在一个问题:用AVP得到的每个sample的分数范围不可控。一方面,经过softmax后可能对噪声样本给极小的权值(接近0),而对高质量样本给极高的权值(接近1),导致过拟合;另一方面,如果权值刚好给反(低质量给高分),因为权值可能极大或极小,对网络来说,很难纠正这一错误。
归根到底,作者认为不能让AVG得到的分数相差太大。直接的思路就是在AVG之后,softamax之前引入非线性,文中所谓的OCM即为如下函数:

这样,最终的sample质量权重范围从 inf\inf无穷 缩小到了e2λe^{2 \lambda}
Experiments
- 数据集: 原始JSRT数据集只提供肺结节标签,准确来说使用的应该是SRC数据集,该数据集对JSRT中的CT图像进行了分割标注。一共247例,提供了肺,心脏,锁骨三个部位的分割标签。作者按2:1分为训练集和测试集。
- 产生noise label:实验中为对真实标签进行erode或dilate

Results
从下面结果来看,改进效果很好。


下图很形象,且有说服力。随着训练次数增加,可以看到,clean sample的均值权重逐渐增加,方差逐渐为0;noisy sample的均值权重逐渐减少,方差逐渐为0。这说明了网络的训练区分了不同标注的样本,并为它们赋予了不同权重,且权重逐渐稳定。

我的笔记
1、数据集的问题,247例2D图像,实验数据相对比较少,没做交叉验证,说服力降低。但不得不说,实验得到的数据真的很棒。
2、文中加noise的方式为erode或dilate。这模拟了比较大的器官中容易出现的标注问题,即对于边缘不是很准确。但有两点不足:1、文中腐蚀/膨胀是均匀的,但实际的低质量标签往往是不均匀的:例如这一块标多了,那一块标少了;2、文中的噪声标签虽然边缘不是很准确,但标注的位置基本是对的。如果是位置标注错误的标签,方法能否仍然有效。
4、该方案很直接的应用是可以减少标注的人力成本。例如10w张胸部CT图片需要划分各个器官:按照实验结果,75% noise 的时候仍能有接近whole clean data的分割精度,则在条件有限的情况下,只需要精标注2.5w张图片,粗标注7.5w张图片,既节省人力成本,又不过多损失分割精度。
3、期待看到在一些真实的低质量标注数据集以及小的分割结构数据集(如肿瘤分割)上的结果。
