多维方向性增强分割通过大规模视觉模型实现|文献速递-视觉大模型医疗图像应用
Title
题目
Multidimensional Directionality-Enhanced Segmentation via large visionmodel
多维方向性增强分割通过大规模视觉模型实现
01
文献速递介绍
黄斑疾病影响全球约2亿人,已成为视力损害的主要原因之一。黄斑是视网膜中光感受器密度最高的区域,富含对光敏感的视锥细胞,其主要功能是色觉和高分辨率视觉。这一区域与中心视觉场直接相关,使得黄斑的健康状况对于整体视觉质量至关重要。任何黄斑的病理性改变都会导致视力下降,特别是中央视力的损失,从而显著降低生活质量。黄斑水肿是指黄斑区域视网膜层下的液体积聚,导致视网膜组织肿胀和厚度增加,对视网膜功能和视觉清晰度产生不利影响(Lim等,2012)。常见病因包括年龄相关性黄斑变性(Age-Related Macular Degeneration, AMD)(Manjunath等,2011)、视网膜静脉阻塞(Retinal Vein Occlusion, RVO)以及糖尿病视网膜病变(Diabetic Retinopathy, DR)(Esmaeelpour等,2011;Sim等,2013;Coscas等,2010)。光学相干断层扫描(Optical Coherence Tomography, OCT)通过基于时间差异的反射测量提供了视网膜的分层图像(Huang等,1991;Trichonas和Kaiser,2014),在黄斑的定性和定量分析中起着至关重要的作用(Wolf和Wolf-Schnurrbusch,2010)。然而,由于早期黄斑水肿表现的微小性和多样性,加之定量分析所需的高精度,仅依赖人工诊断面临重大挑战。在此背景下,利用深度学习(LeCun等,2015)和计算机视觉技术(Ma等,2023)对包括脉络膜(Nickla和Wallman,2010)和黄斑水肿(Tranos等,2004)在内的视网膜结构进行高精度分割和定量评估,可以显著提高诊断的准确性和效率。这些技术已在手术应用中得到了整合,可精准定位水肿和病变区域,有助于确定治疗部位并规划手术。然而,在OCT图像中分割视网膜液体仍面临挑战,包括视网膜液体病灶的高度异质性以及OCT成像固有的低对比度和噪声问题。由于医学图像的复杂性,通常需要医学专家进行广泛的手动标注,这一过程耗时且成本高(He等,2022)。因此,传统的监督学习模型常因标注数据集的有限性而受限,这也限制了其在其他任务中的可迁移性(Aljuaid和Anwar,2022)。近年来,基于Transformer架构的大规模视觉模型(Large Vision Model, LVM)在自然和遥感图像处理中展示了显著的通用性(Vaswani等,2017)。这些模型经过数十亿标注数据集的训练,展现出强大的零样本和小样本能力,尤其是在通用图像分割任务中(Kirillov等,2023)。然而,尽管LLMs如SAM和其他基于Transformer的大规模视觉模型在自然图像分割任务中表现卓越,但在CT、MRI和OCT等专用领域的医学图像中识别关键结构和区域时存在困难。这一不足源于训练过程中缺乏足够的医学影像数据(如放射影像)的暴露,突显了医学图像与自然图像成像原理之间的差异(Wu等,2023)。医学图像通常是特定物理信号(如X射线、超声波、MRI)与人体内部结构交互后的可视化结果,其图像密度、强度或颜色的变化反映了内部结构。因此,直接将这些通用模型应用于医学图像分割可能导致识别准确性的大幅下降,难以满足医学诊断对高精度的需求。针对以上挑战,本文提出了一种大规模视觉模型引导的视网膜分割框架(MD-DERFS),该框架由多维特征重编码单元(Multi-Dimensional Feature Re-Encoder Unit, MFU)、跨尺度方向洞察网络(Cross-scale Directional Insight Network, CDIN)以及谐波细节分割平衡损失函数(Harmonic Minutiae Segmentation Equilibrium Loss, HMSE)组成。为了解决大规模视觉模型训练数据集缺乏医学影像数据暴露的问题(Cheng等,2023),MFU利用基于方向一致性映射的方向先验提取机制和水肿纹理映射单元(Edema Texture Mapping Unit),增强模型识别特定纹理、形状和病理特征的能力。MFU还采用迭代注意力特征融合(iAFF),在不显著增加网络层数或参数的情况下关注跨尺度特征,从而提升捕捉医学影像中微小目标和细微病灶的能力。CDIN网络通过整合形态潜在特征放大单元(Morphological Latent Feature Amplification Unit, MLFA)和角向各向异性分解模块(Angular Anisotropic Decomposition Block, AAD),提供从局部到全局的多层次视角,有效弥补大规模视觉模型基于Transformer的编码器在捕获局部特征信息方面的不足(Kirillov等,2023)。此外,HMSE通过结合BCE、Dice和Poly的优势,有效缓解了黄斑水肿中的类别不平衡问题,提高了分割的准确性和鲁棒性。
本文主要贡献如下:
开发出了一种名为MD-DERFS的新框架。该框架基于多级观察视角和方向性先验提取机制,在编码器模块中显著提升了对细节特征的捕获能力,并成功解决了大型视觉模型中轻量化解码器存在的局限性问题。
采用了MFU网络架构,并通过将高维特征按照通道划分成若干子集分别经过处理后进行融合。在此基础上提出了一种新的网络架构CDIN,在分析像素间的连通性关系的基础上实现了对高维特征中的内容特性和场景特性的分离。这种设计有效地解决了由于过多的特征维度所带来的信息冗余以及通道干扰的问题
开发出了HMSE损失函数模型,并将其与BCE、Dice和Poly三种方法融合应用,在数据集上展现出良好的性能表现,在黄斑水肿检测中的分割准确率和稳定性均有显著提升
在MacuScan-8K数据集上进行了系统性地验证后发现所提方法具有显著的效果 MacuScan-8K数据集包含有8000幅经标注的SD-OCT图像其中来自德国Heidelberg Engineering公司的Spectralis HRA公司
Aastract
摘要
Optical Coherence Tomography (OCT) facilitates a comprehensive examination of macular edema andassociated lesions. Manual delineation of retinal fluid is labor-intensive and error-prone, necessitating anautomated diagnostic and therapeutic planning mechanism. Conventional supervised learning models arehindered by dataset limitations, while Transformer-based large vision models exhibit challenges in medicalimage segmentation, particularly in detecting small, subtle lesions in OCT images. This paper introduces theMultidimensional Directionality-Enhanced Retinal Fluid Segmentation framework (MD-DERFS), which reducesthe limitations inherent in conventional supervised models by adapting a transformer-based large visionmodel for macular edema segmentation. The proposed MD-DERFS introduces a Multi-Dimensional FeatureRe-Encoder Unit (MFU) to augment the model’s proficiency in recognizing specific textures and pathologicalfeatures through directional prior extraction and an Edema Texture Mapping Unit (ETMU), a Cross-scaleDirectional Insight Network (CDIN) furnishes a holistic perspective spanning local to global details, mitigatingthe large vision model’s deficiencies in capturing localized feature information. Additionally, the framework isaugmented by a Harmonic Minutiae Segmentation Equilibrium loss (HMSE) that can address the challenges ofdata imbalance and annotation scarcity in macular edema datasets. Empirical validation on the MacuScan-8kdataset shows that MD-DERFS surpasses existing segmentation methodologies, demonstrating its efficacy inadapting large vision models for boundary-sensitive medical imaging tasks.
该技术通过光学相干断层成像(Optical Coherence Tomography, OCT)系统能够全面评估黄斑水肿及其相关的病变情况。然而,在诊断过程中,对视网膜液体区域的手动勾画操作不仅耗费大量体力劳动时间,并且容易导致测量误差。为此,开发一种自动化诊断和治疗规划机制显得尤为迫切。传统的基于监督学习的模型往往受到训练数据集规模的限制,在实际应用中表现不够理想。此外,在医学图像分割任务中也存在诸多挑战,在检测Optical Coherence Tomography(OCT)图像中的小尺寸病灶时更为突出。
本研究开发了多维方向性增强视网膜液体分割框架(Multidimensional Directionality-Enhanced Retinal Fluid Segmentation, MD-DERFS)。通过优化基于Transformer架构的大规模视觉模型,在黄斑水肿区域的分割方面表现出色,并旨在解决传统监督学习方法存在的局限性。研究中我们引入了多维特征重编码模块(Multi-Dimensional Feature Re-Encoder Module, MFU)。该模块能够构建MFU结构并增强了对特定纹理及病理特征的认识能力。此外,在分割流程中还融入了水肿纹理映射模块(Edema Texture Mapping Module, ETMU)以及跨尺度方向洞察网络(Cross-scale Directional Insight Network, CDIN)。该模块组能够从局部到全局提供完整的解剖学视角,并有效弥补了Transformer架构在捕捉局部特征信息方面的不足。
该框架通过谐波细节分割方法平衡损失函数(Harmonic Minutiae Segmentation Equilibrium Loss, HMSE)有效解决了MacuScan-8k数据集中的黄斑水肿问题中数据分布失衡及缺乏标注信息的问题。实验结果表明,在MacuScan-8k数据集上该模型显著优于现有分割方法,并且能够有效适应边界敏感的医学影像任务中大规模视觉模型的应用需求
Method
方法
This paper presents MD-DERFS, a fundus OCT lesion segmentation framework that exploits the generalization capacity of large vision models for multi-dimensional directionality enhancement. We have incorporated Segment Anything Model's encoder into MD-DERFS while focusing on subsequent multi-dimensional orientation feature extraction and deep decoding of both encoder components and loss function. The following section introduces an overview of our proposed framework. A novel module is developed to enhance local feature extraction. As an integrated approach, CDIN combines MLFA and AAD for thorough global context capture and complex local detail modeling to achieve comprehensive feature extraction. In addition to introducing HMSE that integrates advantages from BCE, Dice and Poly for balanced model training purposes while addressing severe category imbalance in retinal edema dataset.
本研究提出了一种名为MD-DERFS的眼底病变分割框架。该框架通过基于大规模视觉模型的强大泛化能力实现多维方向性增强效果。在MD-DERFS架构中保留并优化了Segment Anything Model(SAM)的核心编码器组件,并专注于提升编码器在多维方向信息提取、深度解码以及损失函数设计方面的性能表现。本节首先阐述MD-DERFS的整体架构设计思路与技术实现方案;随后详细解析所提出的MFU模块如何提升局部特征提取的质量;接着探讨CDIN协同MLFA及AAD共同作用下如何有效捕捉全局上下文信息与局部细节特征;最后引入了一种新型损失函数HMSE损失函数结合BCE、Dice与Poly损失特性优势的同时有效缓解视网膜水肿数据集中类别不平衡问题
Conclusion
结论
通过OCT图像的精确分层揭示了眼底微小结构变化,在早期发现视网膜疾病如黄斑变性和青光眼中发挥着关键作用;此外,在手术中扮演着关键角色,在准确定位水肿区域和病变区域方面发挥了重要作用;本研究旨在从基底 OCT 图像中实现血管性病变分割任务中的三项重要改进;我们提出了一种称为 MD-DERFS 的方法来进一步利用大型视觉模型图像编码器的能力;为此我们整合了 Transformer 基础的大规模视觉模型以克服传统监督学习方法在医学图像分割任务中面临的数据量大且质量差的问题;该框架创新之处在于成功将大型模型的强大视觉理解能力引入到医学成像领域;具体而言其改进结构显著提升了模型捕捉基底 OCT 图像关键细节的能力;实验结果表明我们的方法不仅突破了数据依赖限制而且显著提升了对局灶性病灶区域识别准确性提供了可靠的诊断手段支持
OCT图像的高精度分割不仅能够清晰地显示视网膜中隐藏的细微结构特征,在黄斑变性、青光眼以及糖尿病视网膜病变等眼科疾病的早期筛查方面具有重要价值。此外,在手术过程中这一技术同样发挥着关键作用,在准确识别水肿区域的同时也能明确划分病变范围,并为制定精准的治疗目标定位和手术规划提供了可靠依据
本研究针对眼底OCT图像中的视网膜水肿分割问题提出三项优化方案:构建了MD-DERFS框架模型。该框架充分挖掘了深度视觉编码器中高层语义信息,并将其应用于医学影像分割领域。通过这一创新方法,在提升模型适应性和语义理解能力方面取得了显著效果。为了更好地适应视网膜水肿的独特形态学特征,在模型中整合了一种基于水肿纹理映射的新单元(Edema Texture Mapping Unit)。这种设计不仅能够精准捕捉病灶细节特征,并且能有效利用先验信息实现对小型病灶区域的有效识别。此外,在网络架构上采用了创新的CDIN结构配置方案:不仅能够精准捕捉病灶细节特征,并且还能从局部到全局多角度解析其空间布局特点。这种多层次视角显著提升了网络对复杂病变区域的解析能力,在实现更精确、更可靠的分割效果方面具有重要价值
此外,在类别不平衡的数据集上进行医学图像处理时
我们采用了HMSE损失函数
并将其与BCE、Dice和Poly相结合以融合各自的优势
我们的目标是以增强模型对水肿图像信息的学习能力和提升其在水肿区域像素级分割精度以及整体形状识别方面的性能
MD-DERFS通过融合基于Transformer的大规模视觉模型,在解决医学影像分割任务时成功克服了传统监督学习方法因数据规模和质量限制而导致的问题。该框架的关键创新在于巧妙地将大模型的强大视觉理解能力适配到医学影像这一独特领域。其优化后的架构显著提升了MD-DERFS在眼底OCT图像中的关键细节识别能力。实验结果表明,在仅依赖数据的情况下我们的方法表现出色,并且显著提升了小型局部病灶区域的识别精度这使得我们能够在眼科疾病的小区域诊疗中获得更高的准确性
Results
结果
A dataset named Macular Edema Enhanced Retinal OCT DatasetMacuScan-8k, comprises 8000 annotated B-scan SD-OCT images (Spectralis HRA, Heidelberg Engineering, Germany), obtained from patientsdiagnosed with macular edema at the Zhejiang Provincial People’s Hospital over a five-year period from May 1, 2016, to December 31, 2021.The significant volume and superior annotation quality of MacuScan-8k mark a substantial enhancement over existing publicly availabledatasets in terms of data quantity and collection efforts.The data encompasses retinal OCT scans of 119 patients diagnosedwith macular hole, totaling 126 sequences with each sequence containing 17 to 115 slices. OCT volume scans were centered around themacula, covering an area of 6.0 × 4.5 millimeters (20◦ × 15◦ ), witha resolution of 496 × 512 pixels. The average axial, transverse, andazimuthal pixel spacing were 3.87 μm, 11.50 μm, and 120.96 μm, respectively. All scans originated from the same equipment, and any datawith severe artifacts or significantly reduced signal strength impedingthe recognition of retinal interfaces were excluded.The labeling phase, conducted from June to December 2021, involved five experienced radiologists who manually annotated the retinal, macular edema, and macular hole in each B-scan of the OCTvolumes using segmentation editor software. Following the initial annotation, two senior retinal experts reviewed the results. This reviewprocess included multiple rounds of feedback and revision to ensurethe accuracy of the annotations. In the diagnosis of fundus diseases, IRFrefers to the accumulation of fluid in the retinal layer, which is usuallyassociated with retinopathy such as macular edema. SRF indicates thepresence of fluid under the retinal layer, which is commonly observedin conditions such as choroidal neovascularization and can lead tovisual impairment. The annotation focused on classifying IRF and SRFas one category to enhance segmentation precision in the network(Fig. 9).
一个名为黄斑水肿增强视网膜OCT数据集(Macular Edema Enhanced Retinal OCT Dataset, MacuScan-8k)的数据集包含8000幅标注的B扫描SD-OCT图像(由德国Heidelberg Engineering公司的Spectralis HRA设备采集),这些图像来自浙江省人民医院的黄斑水肿患者,在2016年5月1日至2021年12月31日的五年期间收集。相比现有公开数据集,MacuScan-8k在数据量和采集工作方面实现了显著提升,其数据规模和高质量标注显著增强了数据的实用性。该数据集包含119例黄斑裂孔患者的视网膜OCT扫描,总计126个序列,每个序列包含17到115张切片。OCT体积扫描以黄斑为中心,覆盖6.0 × 4.5毫米的区域(20° × 15°),分辨率为496 × 512像素。平均轴向、横向和方位像素间距分别为3.87 μm、11.50 μm和120.96 μm。所有扫描均来源于相同设备,任何由于严重伪影或信号强度显著降低而影响视网膜界面识别的数据均被剔除。标注阶段于2021年6月至12月进行,由五位经验丰富的放射科医师手动标注OCT体积中每一幅B扫描图像的视网膜、黄斑水肿及黄斑裂孔,使用分割编辑软件完成标注。初始标注后,两位资深视网膜专家对结果进行了审核,审核过程中包括多轮反馈和修订,以确保标注的准确性。
在眼底疾病的诊断过程中,视网膜层内液体的积聚被称为视网膜内液体(IRF),通常会伴随黄斑水肿等视网膜病变的发生。而存在于视网膜层下的液体被称为视网膜下液体(SRF),这类情况多见于脉络膜新生血管化相关的疾病,并可能造成视力损伤。在标注环节中将两者归入同一类别以提高网络分割的准确性(如图9所示)。
Figure
图

_Fig. 1. 从左到右依次展示:原始OCT图像、SAM分割输出结果、Fine-tuned SAM模型在MacuScan-8K上的优化后分割输出结果以及MD-DERFS模型在训练后对MacuScan-8K上OCT水肿区域的分割结果。该病变区域(图中红框内)的分割需要更深入的局部特征理解。如图所示,MD-DERFS方法已在训练后显著提高了OCT水肿区域的分割效果。
如图所示,在第一行至第四行分别展示了原始OCT图像、SAM模型的基础分割结果、基于MacuScan-8K微调优化后的SAM模型输出以及经过训练后的MD-DERFS模型输出效果对比;其中红框内标注区域表明该区域在进行病变组织识别时存在较大挑战性;而通过对比实验可以看出,在与OCT图像结合下MD-DERFS算法明显提高了水肿区域划分效率与准确性

Fig. 2展示了一个完整的MD-DERFS架构图,在该框架中基底OCT图像首先通过预训练的SAM编码器被映射至特征空间中,并生成五个形状图像嵌入(𝐸1至𝐸5),其尺寸为255×64×64。随后将Encoder输出中的𝐸1输入到多层感知机(MFU)中进行处理,在此过程中将Encoder输出沿通道切分以便充分挖掘基底OCT图像的专业知识库从而解决了大型预训练SAM模型缺乏医学专业知识的问题;而对于Encoder输出中的剩余部分即𝐸2至Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的剩余部分即Encoder输出中的其余四个嵌入体(从 Elsa 到 Es)则被输入到条件对齐网络(CDIN)中进行处理以解决基于Transformer结构的大模型在提取图像局部精细特征方面的不足问题;最后通过自适应注意力融合模块(iAFF)对两个模块提取的精细特征进行融合并得到最终分割结果
图2。 MD-DERFS的整体架构示意图。随后,将眼底OCT图像通过预训练的SAM编码器映射至特征空间中,并提取五个形状图像嵌入(𝐸1 -𝐸5),其尺寸为255 × 64 × 64。其中𝐸1经由MFU处理时,在通道维度进行切片操作以充分激活OCT图像的专业知识;而𝐸2至𝐸5则依次输入至CDIN模块中以解决基于Transformer架构的大规模视觉模型在捕捉图像细节特征方面的不足问题。经过MFU与CDIN两模块输出的精细特征经由iAFF机制整合后即可得到分割结果

Fig. 3. 图3展示了MFU的架构图。该系统采用特征切分法将输入信号划分为若干个独立组别。每个组别经由Edema纹理映射单元进行处理以提取方向性先验特征。随后通过iAFF算法将这些特征融合起来,在保证框架复杂度可控的前提下显著提升了分割精度.
如图3所示为MFU(多维特征重编码单元)的结构示意图。其中采用基于特征切片的方法将输入样本划分为若干个独立的组别。每个组均经过水肿纹理映射单元用于提取具有方向性的先验特性,并随后引入迭代注意力机制进行多模态信息融合。这种设计既提升了分割精度又维持了网络架构的整体可扩展性

在概述中提及的Edema纹理映射单元中,“其中LayerNormalization代表层归一化”,MFU切片特征被输入到Edema纹理映射单元中以实现该图像的空间和纹理特征多角度分析
图4展示了水肿纹理映射单元(Edema Texture Mapping Unit)的结构示意图(见图4),其中LayerNormalization具体而言即指层归一化过程。其通过上述方法提取出的特征经由上述方法被系统性地输入至水肿纹理映射单元中,并以实现对图像的空间维度及其纹理细节进行多维度分析。

Fig. 5展示了CDIN的网络结构图。其中图像嵌入𝐸𝑖源自SAM编码器。该模块通过AAD和MLFA模块实现了多层次特征提取过程.
如图5所示,CDIN(跨尺度方向洞察网络)的架构示意图清晰展示了其主要组成部分。其中,图像嵌入 E_i 通过SAM编码器进行生成处理。该模块基于AAD(角向各向异性分解模块)和MLFA(形态潜在特征放大单元)实现了多阶段深度特征的系统性提取

Fig. 6展示了MLFA模块的结构图。该模块由两个阶段组成,每个阶段均包含先dilated卷积层后紧接着批量归一化和ReLU激活层。在两个阶段之间配置了上采样层以提升特征图的空间分辨率。该模块旨在通过dilated卷积及其后续上采样过程有效地捕捉多尺度特征.
图6展示了MLFA(形态潜在特征放大单元)的结构示意图。该模块由两个阶段构成,在每个阶段中都包含一个膨胀卷积层(dilated convolution layer)、一个批量归一化层(Batch Normalization)以及一个ReLU激活函数(ReLU)。在两个阶段之间设置了1个上采样层(upsampling layer)以提升特征图的空间分辨率。该模块旨在通过结合膨胀卷积与后续的上采样机制有效地提取多尺度特征。

_Fig. 7 illustrates the architecture of AAD. Comprising two primary components, Scene Encoder and Content Encoder, this module is designed to capture scene understanding and content representation separately. The Scene Encoder primarily incorporates two dilated convolutions and an SPP module for efficient feature extraction from complex scenes. On the other hand, the Content Encoder is constructed with dilated convolutions, Batch Normalization layers, and ReLU activation functions to extract high-level semantic features from content-rich regions. By integrating the outputs of these encoders through a sigmoid function, we generate relational features E_{scene} that are subsequently aggregated to yield the final E_{AA-D}.
图7展示了AAD(Angle-Axis Decomposition Module)的结构示意图。该模块主要由两部分构成:一个是场景编码器(Scene Encoder),另一个是内容编码器(Content Encoder)。其中场景编码器包括两个扩张卷积层以及一个空间金字塔池化层;而内容编码器则由扩张卷积层、批量归一化层以及ReLU激活函数构成。这两个编译器经sigmoid函数处理后生成关系特征𝐸𝑠𝑐,并整合得到最终结果𝐸𝐴𝐴𝐷

Fig. 8. Depth space feature visualization. After being encoded using SAM’s encoder, the image embedding contains abundant noise information. By separating the content features and scene features in the depth space through CDIN, the extraction of depth features has been carried out via AAD, leading to content features that incorporate clear boundaries, textures, and other detailed structures, as well as scene features encompassing edema volume and background information. These features are highly beneficial for edema segmentation.
本研究关注的图8展示了深度空间中的视觉化特性分析过程。经萨姆编码器处理后,萨姆编码后的图像嵌入结果中含有较多噪声,这些噪声会对后续的深度特性提取产生不利影响。为此,我们采用cdin方法在深度空间分离出内容特性和环境特性,随后采用先进数据处理技术(aad)对深度特征求取,从而提取出具有明确边界轮廓及纹理细节的内容特性,同时解析出具有肿胀体积区域及背景环境特徵的空间分布情况。这些提取出的关键特性对于实现肿胀区域精准分割具有重要意义

Fig. 9. 该图展示了一个数据集图像的部分内容,在蓝色方框选定的区域标记为IRF,在红色方框选定的区域标记为SRF。标签F1至F6用于参考和识别每个帧的内容.
图9所示。 图中呈现了数据集的一组图像样本,其中用蓝色框选的区域标记的是视网膜内腔液体(IRF),而红色框选的区域标注的是视网膜下腔液体(SRF)。通过标签F1至F6对每帧图像进行了标注和标识

_Fig. 10. Comparison of segmentation effects. The figure shows the original OCT image. The manual annotation of GroundTruth is depicted by a red mask, while the result of automatic segmentation using the model is represented by a blue mask. The figure represents the MD-DERFS segmentation result, and the masks of two different colors are combined into a single image, with their overlapping part rendered as white.
在图10中展示了分割效果对比图。该图表呈现了原始OCT图像与手动标注的标准值(GroundTruth),其中手动标注的真实值以红色遮罩显示而模型自动生成的结果则以蓝色遮罩显示。该图表详细比较了基于MD-DERFS算法的分割结果,在同一幅图像中两种不同区域分别以不同颜色标记并进行叠加处理,在重叠区域则采用白色填充以区分各部分区域

Figure 11 displays box plots showing six metrics compared to a baseline: Recall, Mcc, Dice, IoU, Kappa, and G-mean. Along the x-axis are models labeled as follows: (a) U-Net; (b) AttUnet; (c) SegNet; (d) FCN-8s; and Ene.
图11展示了六个指标与基线的对比结果:包括召回率、马修斯相关系数、Dice系数、交并比、Cohen's Kappa系数以及几何均值等指标的表现。在x轴上,"U-Net"对应(a),"AttUnet"对应(b),依次类推至"Ene"对应(e)。

_Fig. 12. A visual comparison of MD-DERFS evaluation results against other segmentation methods on the MacuScan-8k dataset was conducted. Six representative images were selected for illustration. In each image, ground truth was depicted in red, model segmentation results were shown in blue, and correctly coinciding regions were highlighted in white to confirm accurate segmentation. Notably, instances F1 and F5 exhibited challenges where edema regions were indistinguishable from adjacent retinal tissues; this highlighted MD-DERFS's exceptional ability to achieve precise segmentation despite such difficulties. Furthermore, consistent with its robust performance across various cases, MD-DERFS demonstrated accurate segmentation of edema areas and their peripheral regions in instances F2 through F6.]
图12. MD-DERFS与其他17种分割方法在MacuScan-8k数据集上的评价结果可视化对比图中展示了6幅具有代表性的医学图像分割效果对比图

The figure demonstrates six key metrics from an ablation study conducted on Edema Texture Mapping Units. The model's 𝑥-axis is identified as consisting of: (a) MFU 2-Layer; (b) MFU3-Layer; (c) MFU 4-Layer; (d) MFU 5-Layer; (e) MFU 6-Layer; and (f) MFU 7-Layer.
图13. 箱线图详细呈现了关于水肿纹理映射单元(Edema Texture Mapping Units)消散过程中的关键指标分布情况,并包含六个核心数据点以供分析比较。具体而言,在图中x轴上依次标示了不同层级的模型标签:第2层级至第7层级的MFU标记分别对应于(a)至(f)六组数据样本

Along the 𝑥-axis, the model is represented by:(a)、(b)、(c)、(d)、(e)、(f) and (g),where each component is described as follows.
图14展示了关键框架模块消融研究中六个关键指标的箱线图分析。该图表详细列出了各模型的标签:(a) SAM;(b) SAM+CDIN+iAFF;(c) SAM+CDIN+MFU-6L;(d) SAM+CDIN+MFU-4L;(e) CDIN+MFU;(f) SAM+CDIN+MFU-4L+iAFF;(g) SAM+CDIN+MFU-6L+iAFF。

Fig. 15. Box plots showing six indicators from the ablation study on loss. On the𝑥-axis, the model is labeled as: (a) 𝛾𝛽-Focus; (b) 𝛾𝛼-Focus; (c) 𝛼𝛽-Focus; (d) 𝛽𝛼-Focus; (e)𝛽𝛾-Focus; (f) Uniform; (g) 𝛼-Focus
图15展示了损失函数消融研究中的六个指标,在模型标签方面(a)γβ-Focus;(b)γα-Focus;(c)αβ-Focus;(d)βα-Focus;(e)βγ-Focus;(f)Uniform;以及(g)α-Focus

Fig. 16. 图16展示了针对MD-DERFS模型结构的消融实验对比分析。A-E分别代表MD-DERFS及其不同组合形式:SAM结合CDIN并融合iAFF;SAM结合CDIN融合MFU-L层,并分别使用6层和4层;仅采用CDIN与MFU-L层;采用SAM结合CDIN融合MFU-L层并加入iAFF;以及上述各种组合形式与iAFF的混合配置。其中红色标注真实样本;蓝色表示各模型的分割结果;重叠区域以白色表示.
图16. 该对比图展示了MD-DERFS模型结构在消融实验中的表现。A-E分别代表以下几种模型:MD-DERFS、SAM+CDIN+iAFF、SAM+CDIN+MFU-6L、SAM+CDIN+MFU-4L、CDIN+MFU、SAM+CDIN+MFU-4L+iAFF以及SAM+CDIN+MFU-6L+iAFF。图中以红色标记表示参考标注(GroundTruth),蓝色区域为各模型分割结果,在重叠区域则以白色显示。
Table
表

Table 1Configuration settings employed during the course of the experimental procedure
表1 实验过程中使用的超参数配置

Table 2 presents experimental outcomes from both the proposed method and 17 previously developed segmentation techniques on the MacuScan-8k dataset. The best experimental results are highlighted with red color, while the second-best results are highlighted with blue color.
本研究对比表2展示了本文提出的方法与17种现有分割方法在MacuScan-8k数据集上的实验结果。实验结果显示,在图表中采用红色标注的方式标记出了最优指标,在蓝色区域标注出了非最优指标数值。

(Table 3) Table 3 demonstrates results from incremental integration into our innovative network based on a robust visual foundation. Among these datasets, red highlights achieve superior performance compared to blue counterparts.
表3该表格呈现了基于大规模视觉模型依次纳入我们创新网络的消融实验结果。其中红色数据标记了各评估指标的最佳表现;而蓝色数据则代表非最佳表现。

Table 4 presents an investigation into how different hyperparameter settings affect our loss function's performance across various model configurations. Red cells in this table indicate the best outcomes for each metric, while blue corresponds to the second-best results.
表格4旨在分析多种超参数设置对损失函数与模型效果的表现。该表格中用红色标注的最佳结果数据表明最优配置的有效性,在其他非最佳表现的数据点则反映出配置优化的空间。

Table 5 presents a detailed analysis of primary segmentation metrics for models with varying numbers of Edema Texture Mapping Units layers. Specifically, configurations ranging from 2 to7 layers are evaluated. The red-marked data represents the optimal outcomes achieved by each index, while the blue data highlights the second-best results obtained across these configurations.
表5详细呈现了模型在不同层级的水肿纹理映射单元(Edema Texture Mapping Unit, ETMU)下的关键分割性能。具体而言,在2至7个ETMU配置下分别评估了模型的表现,并根据实验结果将这些数值分为最佳与非最佳两类。其中红色数值代表该指标的最佳值,而蓝色数值则为次优表现
