Advertisement

读后感-论文Patch-based Convolutional Neural Network for Whole Slide Tissue Image Classification

阅读量:

读后感背景

在工作中需要对高分辨率图像(最低要求为1024×1024像素)进行分类。此外,在确定ground-truth类别时,通常会参考细节纹理特征。相比之下,整体结构和空间布局等global特征的重要性较低。在生物医学领域中,这种情况较为常见。这使得传统的CNN架构难以有效处理这类问题。

论文[Patch-based Convolutional Neural Network for WholeSlide Tissue Image Classification]为此类问题提出了 一个解决方案。基本原理就是把一个高分辨率图像分成很多小patch, 然后对每个patch做patch-level classification, 最后集合得到image-level classification.

这种解决方案采用了多示例学习(Multiple Instance Learning)。在这里image到patch的关系相当于多示例学习中的bag到instance映射关系。label等同于image但patch本身是没有ground-truth label的。由此可见多示例学习也属于弱监督学习。

该论文中提出了一种基于CNN的分类器架构及决策融合模型设计。该分类器采用CNN对图像分割成小块(称为Patch)进行逐块分类。通过决策融合模块将所有Patch的分类结果综合考虑后输出最终图像级别的分类信息。如图所示,在实验部分详细展示了该方法的具体实现流程。

1475891-20190529210641286-1815357745.png

decision fusion model的实现相对简单,在基础架构上包括基础的max pooling、average pooling以及投票机制的基础上延伸发展,在机器学习领域中支持向量机(SVM)模型、LR(logistic regression)模型以及一直到深度学习领域中的神经网络模型都能轻松实现这些基本框架结构;由于这类变体种类繁多(如加性注意力、乘性注意力等不同的机制),就不一一详细阐述了

读后感主体

本编读后着重探讨了Patch级分类器的相关内容,在文中提到我们提出了一种新型基于Expectation-Maximization (EM)的方法,在利用各Patch间的空间关系的基础上自动生成识别出具有判别性的Patch,并且这一过程能够有效地提高分类性能。意为在进行决策融合时,并非将所有Patch的标签都纳入融合过程(尽管个人认为这一步骤的实际应用价值有限),因为存在一些非关键或仅起辅助作用的Patch(具体文中未详细展开讨论)。

如何利用EM算法选择判别性patch?文章最初部分进行了大量的数学推导,并首先介绍了相关的数学符号

1475891-20190527144757378-1900711047.png

对于每一个patch x_{i,j}来说,在计算其条件概率P(H_{i,j}|X)后若结果大于对应的阈值T_{i,j}则该patch会被判定为具有判别性并被选中用于继续训练CNN。

在定义部分中提到:通过应用高斯平滑(Gaussian smoothing)得到 _是通过将概率密度函数 P(y_{i, j}| x_{i,j} ; \theta) 进行处理而获得的。

一个patch是否具有区分能力取决于其预测结果中对应图像真实标签的信任分数。该图像的真实标签是该patch所对应的图像的真实标签。因此,在训练过程中,该patch会被归入其他类别(即其对应图像真实标签的信任分数不是最高)。只要该图像类别上的信任分数高于某个阈值。

清楚地阐述了discriminative patch的概念后
我们就可以深入研究论文中采用EM算法以及深度学习方法来评估一个patch是否具有判别性

1475891-20190527144744276-1477281332.png

首先,在初始化阶段,在将所有的patch视为discriminative的情况下,默认情况下第一次迭代会全部应用这些patch。需要注意的是,在这种情况下,H_{i,j}=1与神经网络参数的初始化无关。

1475891-20190527144822838-465085526.png
1475891-20190527144837150-1389464486.png

在M步骤中,基于一系列假设进行推导后可得出结论:为了使目标函数最大化(即公式(4)),我们采用交叉熵损失函数作为优化损失层的神经网络架构即可实现这一目标)。具体而言,在计算过程中需结合上述手写图所示的方法来进行详细推导(Derivation)。这里需要注意的是,在计算过程中所涉及的概率表达式中,特别是涉及到的条件概率项(如 P(y_i|x_{i,j}))其本质即为给定输入条件下输出变量的真实值的概率分布情况:在这种情况下,posterior probability represents the likelihood of observing the actual output y_i given input data and model parameters θ.

关于公式(4)中的元素P(x_{i,j})的情况如何呢?这个部分尚未完全理解。如有对本文有深入见解的朋友或读者,请赐教一二。

1475891-20190527144852327-1354687290.png

在E步骤中, 我们利用神经网络经过softmax层输出并施加高斯平滑处理, 计算出P(H_{i,j}|X)的具体数值. 接着将计算出的结果与预设阈值进行对比, 以判断所提取的patch是否具有判别性. 阈值设定和比较的具体细节在此省略, 但大致流程已基本明了. 最后, 在M步骤中将被确认为判别性的patch作为数据输入用于模型更新.

读后感总结

这是我对文章《Patch-based Convolutional Neural Network for Whole Slide Tissue Image Classification》的理解。尽管可能存在一些偏差或不足之处,请注意这一现象可能源于作者并未提供源代码这一事实。通过网络搜索发现现有的第三方实现难以实现我们的目标。如果有读者对此文章感兴趣并进行深入研究的话,请能与我分享看法或讨论问题以便验证我的理解是否准确。

转载于:https://www.cnblogs.com/fledlingbird/p/10929777.html

全部评论 (0)

还没有任何评论哟~