【论文阅读笔记】MOSformer: MOmentum Encoder-based Inter-Slice Fusion Transformer for Medical Image Segmentat
发布时间
阅读量:
阅读量
arxiv Jan22 ,2014
【核心思想】
提出了一种新型的用于医学图像分割的深度学习模型MOSformer。它主要通过双编码器设计和动量更新方法来提高2.5D医学图像分割模型的性能,其中一个编码器使用动量更新保持切片表示的一致性。此外,它还引入了一种名为IF-Swin的变换器模块,通过在切片维度扩展窗口自注意力机制,实现多尺度特征图之间的有效融合。
【网络结构与关键特点】

双编码器设计 :
* **设计动机** :传统的2.5D基于单编码器的模型在处理输入切片时,往往无法有效区分每个切片的特征。这是因为所有切片都通过同一个编码器处理,导致它们具有相同的特征分布,从而限制了模型捕捉目标切片特征的能力。一个简单的想法是使用两个独立更新的编码器分别处理邻近切片和目标切片。然而,这种方法在作者实验中取得了次优的性能,作者认为是由于两个独立更新的编码器降低了切片特征的一致性所导致的,因此引出了动量更新方式保持一致性。

动量更新机制 :在双编码器设计中,一个编码器(θ1\theta_1)采用标准的反向传播进行参数更新,另一个编码器(θ2\theta_2)则通过动量更新机制来保持切片特征的一致性。动量更新是通过结合两个编码器的参数,通过一个动量系数来调整,从而使得邻近切片编码器的特征与目标切片编码器的特征保持一定的一致性,同时保持了它们之间的区分性。
θ2←m∗θ2+(1−m)∗θ1\boldsymbol{\theta}{2} \leftarrow m * \boldsymbol{\theta}{2}+(1-m) * \boldsymbol{\theta}_{1}
IF-Swin变换器模块

* **多尺度应用** :IF-Swin变换器被应用于多个尺度上,以实现更有效的切片间信息融合。这种多尺度处理方法有助于捕获从粗糙到细致的特征,从而提高图像分割的准确性和鲁棒性。
* **窗口自注意力机制** :IF-Swin采用了局部窗口内的自注意力机制,与标准自注意力的全局处理方式相比,这种局部注意力机制降低了计算复杂度。在这个框架下,目标切片的每个像素点不仅关注切片内的相邻像素点(即切片内信息),还关注邻近切片中的相关像素点(即切片间信息)。
* **转换窗口分割策略** :为了增强特征表示能力,IF-Swin变换器采用了一种转换窗口分割策略,即通过移动窗口的位置来增加像素点之间的连接。这种策略使每个像素点能够接收来自更广泛区域的信息,进一步增强模型的表达能力。:IF-Swin变换器模块旨在融合不同切片之间的信息。与传统的Swin变换器不同,IF-Swin在切片维度上扩展了窗口,使得目标切片能够同时捕捉切片内部和切片间的信息。这种设计允许模型在处理医学图像时,更全面地理解和表达图像内容。
【数据集与实验】
该模型在三个基准数据集(Synapse、ACDC和AMOS)上进行评估,取得了85.63%,92.19%和85.43%的DSC(Dice Similarity Coefficient,骰子相似系数)表现,显示出在医学图像分割领域的竞争力。
全部评论 (0)
还没有任何评论哟~
