深度学习在医学影像中的研究进展及发展趋势

点击上方蓝字关注我们

深度学习在医学影像中的研究进展及发展趋势
王丽会1,2, 秦永彬****1,2
1 贵州省智能医学影像分析与精准诊断重点实验室,贵州 贵阳 550025
2 贵州大学计算机科学与技术学院,贵州 贵阳 550025
摘要
关键词**:** 深度学习 ; 医学影像 ; 图像处理 ; 人工智能 ; 卷积神经网络

论文引用格式:
王丽会,秦永彬. 深度学习在医学影像中的研究进展及发展趋势[J]. 大数据, 2020, 6(6): 83-104.
WANG L H 和 QIN Y B 在《Big Data Research》期刊上发表了一篇关于深度学习在医学图像分析中应用现状及未来发展观点的文章(J),该研究详细探讨了当前技术水平以及对未来趋势的深入分析(J)。

1 引言
医学成像是临床诊断的重要辅助手段之一,在现代医疗中发挥着不可替代的作用。主要包括CT扫描技术、磁共振成像(MRI)、正电子发射断层扫描(PET)以及超声(US)等影像方法。如何结合大数据分析与人工智能算法,在处理海量医学影像数据时实现精准特征提取与模式识别?这已成为当前研究的重点领域。
深度学习可被视为机器学习的一个重要分支,在推动人工智能技术发展方面发挥着关键作用。当深度学习技术广泛应用于图像处理与计算机视觉领域时,借助其力量来辅助临床诊断与决策已成为医学图像分析研究的核心关注点。医学影像智能诊断的整体流程大致可分为三个主要阶段:首先是收集数量庞大的高质量图像数据;其次是对其实施系统的预处理过程(包括配准及兴趣区域提取);最后则是从这些预处理后的数据中提取有价值的信息,并以此进行预测分析。这些具体的环节可通过图1来直观呈现。其中构成模型训练基础的关键要素是海量高质量的数据资源;而对图像实施预处理则是确保后续分析结果准确可靠的必要前提;最终建立预测模型并完成信息解析则直接关系到临床决策的质量保障水平。基于此研究现状及发展趋势的角度出发,《XXX》一文将分别聚焦于这三个关键环节中的主要应用进展,并对未来的发展方向提出深入探讨。

图1 医学图像处理分析过程
2 医学图像复原、重建与合成
2.1 医学图像复原与重建
大量、高精密度的医学图像数据主要依靠深度学习技术实现影像精准诊断的基础工作。但在医学成像过程中不可避免地会受到噪声干扰、伪影影响等因素的制约。与此同时,在某些成像方法中还需要在分辨率与采样时间之间做出权衡:例如,在CT成像中为了降低辐射影响可降低投影采样数量;而在磁共振成像中为减少患者运动或器官自身运动引起的伪影则需降低K空间采样率从而减少扫描时间但这种低采样率却会对图像重建质量造成较大影响因此为了获取高质量采集图像通常需要执行降噪处理超分辨率重建去伪影等复原重建工作本将分别阐述深度学习在这几方面的研究现状
2.1.1 医学图像降噪
基于深度学习技术的应用已在医学影像领域取得显著进展。其中一种重要的方法是卷积神经网络去噪自动编码器(Convolutional Neural Network Denoising Autoencoder, CNN-DAE),这是最初应用于医学图像降噪的技术之一。该方法通过多层堆叠的卷积层,在编码与解码过程中从噪声数据中提取无噪声特征,并具有较强的抗干扰能力较弱的特点。随后Chen等人提出了残差网络与卷积自编码器结合使用的RED-CNN去噪模型。这一创新性研究通过跳跃连接构建多层次网络结构,在提升降噪效果的同时显著加快了训练速度并优化了性能指标。AUCM研究人员当年首次采用方向小波变换处理低剂量CT数据,并将深度卷积神经网络模型应用于小波系数空间中实现了有效的降噪效果研究
尽管这些网络结构在降噪性能上相较于传统方法取得了显著的进步,但它们在训练过程中都采用了复原CT图像与正常剂量CT图像之间的均方误差最小作为优化目标这一共同特点。这种设定导致降噪后的图像出现了细节模糊以及纹理缺失等问题。针对这一挑战性问题的研究者们提出了改进损失函数以及优化模型架构的方法来提升低剂量CT图像的去噪效果。WGAN-VGG模型通过引入感知损失并采用Wasserstein距离进行降噪操作;利用感知损失结合Wasserstein距离来提高降噪图像与真实图像的一致性程度。基于WGAN-GP模型构建的SMGAN则将多尺度结构损失与L1范数损失相结合;并通过相邻切片间的特征信息实现降噪效果;其性能优于传统的Wasserstein-VGG模型版本。然而梯度惩罚的应用却降低了生成式对抗网络的能力;为了弥补这一缺陷研究团队提出了基于LS-GAN框架下的残差生成器设计;通过引入结构相似度指标以及L1范数损失来增强降噪能力;其中生成器主要负责去噪过程而降噪结果则由输入噪声向量与生成输出之间的差值得到体现除了上述主要研究之外Yin X R等人则采取了在投影域和图像域同时应用3D残差网络的方式来提升去噪效果;他们利用滤波反投影重建算法实现了域间信息的有效转换进而通过迭代算法实现了高质量图像的重建过程最后Wu D F团队提出了一种无监督学习方法实现了自适应去噪效果这一方法完全避免了对无噪声参考数据的需求仅依赖于带噪声样本进行模型训练从而获得高质量去噪结果
通过深度学习技术实现降噪过程中的一个重要方面是依赖于有噪声和干净的图像对来训练模型,并深入分析噪声特性以及如何建立两者之间的映射关系。从而有效去除噪声干扰。然而这种方法在实际应用中存在一定的限制,在临床领域尤其难以获得真实的干净图片。为此如何仅基于有噪声图片使用无监督或自监督方法进行医学图象去-noise成为一个核心议题。
2.1.2 医学图像超分辨率重建
通过高分辨率的医学影像能够获得更为丰富的临床诊断信息;受限于现有医疗成像设备的技术局限性,在临床应用层面而言, 高分辨影像的实际获取仍然存在较大的挑战性。因此, 如何借助深度学习技术从单幅或多幅低分辨医学影像中恢复出相应的高分辨影像, 已然成为当前研究的重点方向之一;基于这一基础之上, 相关研究逐步展开并取得了显著进展;然而, 由于医学影像与自然图像存在本质区别, 其超分辨重建不仅需要在切片平面上实施, 还必须跨越切片之间的空间关联(例如图2所示)。

图2 医学图像超分辨率图像示意图(此图部分来自参考[9] )
除了直接将自然图像中的超分辨率重建模型应用于医学图像外,Okanay等人构建了深度残差卷积网络模型,从多个2D心脏磁共振(magnetic resonance, MR)切片中重构出完整的3D高分辨率MR体积,显著提升了层间分辨率。Pham C H等人拓展SRCNN至三维空间,以实现脑部MR图像的超分辨率重建效果。McDonagh S团队开发了一种上下文敏感的残差网络架构,能够生成边界清晰且纹理丰富的高分辨率MR图像样本。Zheng等人提出了一个融合多通道密集连接和多路分支策略的高分辨率MRI重建模型,该模型展现出良好的重建效果与泛化能力。Zhao等人设计了一种新型脑部MR图像高分辨重建模型,其中单个通道采用残差学习框架,另一通道采用密集连接机制协同工作,有效提升了目标图像的质量与细节表现力。Tanno团队结合3DSubpixelCNN与变分推论框架,成功实现了磁共振扩散张量图象的空间超分辨率重构过程。Peng团队开发了空间感知插值网络(spatially aware interpolation network, SAINT),通过充分挖掘不同切面的空间信息提升目标区域超分辨图象的整体质量水平,其在CT双倍、四倍及六倍采样率下的重构性能均表现出色。Shi团队提出了一种基于多尺度全局与局部信息融合机制的经典残网络(multi-scale global local residual learning)架构,能够有效增强目标图象细节特征的表现能力并实现高质量的超分辨重构效果
与医学图像降噪类似,在基于深度学习的超分辨率图像重建中需要采集包含低分辨率和高分辨率信息对的数据用于网络训练。在实际操作中通常会采用下采样方法构建高/低分辨率图像样本对。然而由于不同模态医学成像手段之间存在显著差异其对应的高/低分辨率像素间映射关系也各不相同因此单纯依赖人工采集数据的方式可能导致所建立的数据集无法充分反映真实场景下的映射关系进而影响模型性能成为一个亟待解决的关键问题
2.1.3 医学图像重建
医学图像是通过将收集到的数据转换为可用于临床诊断的形式实现构建的过程。CT扫描所得原始数据表现为投影图像形式,而MRI扫描得到的数据则以K空间形式存在,这些都需要特定算法才能完成对临床可用图象的信息构建过程。在实际应用过程中,由于CT扫描尽量减少投影数量并缩短扫描时间来降低辐射影响,同时MRI成像也会减少K空间填充密度并缩短扫描时间来规避患者不适或因自身运动产生的伪影问题,因此不得不降低原始数据点数以适应这些限制条件。然而,这种降采样处理必然会导致后续图象重构质量出现下降的趋势,所以寻找适合低采样率下的重构算法来维持高质量图象输出便成为了当前医学图学领域的重要研究课题之一
目前采用深度学习模型进行医学图像重建的方法主要分为两种类型:一种是从原始数据直接实现图像的重建过程;另一种则是通过后处理手段提升重建图像的质量水平。第一种类型的代表模型包括ADMM-Net,在该模型中研究者采用了深度迭代的方法来优化传统交替方向乘子(alternating direction method of multipliers, ADMM)算法中的超参数设置;随后Lee D等人提出了一种基于残差模块的U-Net架构设计;此外还有基于双路U-Net模型的研究工作;第二种类型的重建方法目前处于主流地位;它主要是指通过去伪影后处理模型来进行图像重构;这种技术不仅适用于降噪以及超分辨率重构任务;同样也可以应用于MR图像的重建过程中;具体而言Lee D等人还提出了采用带有残差模块的U-Net结构来学习伪影与原始欠采样图像之间的关系;随后他们又提出了一种双路U-Net架构用于同时重构相位与幅度图像以进一步提高MR图像质量;此外Schlemper J等人则采用了深度级联卷积神经网络(convolutional neural network, CNN)架构来建模动态MR成像的时间序列特性;从而实现了快速采集下动态MR图像的有效重建;Han Y等人则提出了一种域适应微调的方法将CT图像重建网络应用到了MR图像重建任务中以实现高采样率下的精确重构效果;Eo T提出的KIKI-Net则是在K空间域与图像空间域同时应用了深度学习网络以显著提升了MR图象重构性能水平;Bao L J等人则开发了一种增强型递归残差网络并结合复数域特征图进行训练取得了较好的图象重现效果;Dai Y X团队则提出了基于多尺度空洞卷积设计的深度残差卷积网络架构成功地在较少数量的网络参数下实现了更高的图象重现精度水平
该领域的核心研究内容主要涉及图像降噪任务、图像超分辨率重建过程以及一般性的图像重建方法等。由此可见,在反问题求解框架下各模型间具有通用性特征。本文不一一展开讨论其具体实现细节
2.2 医学图像合成
2.2.1 医学图像数据扩展
在临床应用中,医学图像合成主要服务于两个主要目标。其一,在提升数据集多样性方面取得了一定进展。通过实施平移变换、旋转变换、裁剪操作以及添加噪声等方式能够有效扩展训练数据集规模。然而现有技术仍存在不足之处:虽然这些方法能在一定程度上满足需求但难以完全覆盖复杂的多样化场景从而限制了深度学习模型在临床诊断中的全面应用。其二,在模拟成像方面也取得了显著成果。由于不同影像模态能够互补提供关键信息综合运用多种模态影像可显著提高诊断准确性。然而受限于硬件设备和技术限制单一模态影像获取难度较大因此图像合成技术作为一种有效的辅助手段得到了广泛应用。此外一些新型成像技术对硬件设备的要求较高导致资源分布不均进而限制了其推广使用。尽管如此图像合成都为获取稀缺且珍贵的医学影像数据提供了可行途径
鉴于GAN模型在自然图像合成方面取得的显著成效,在医学领域中基于GAN的衍生模型实现医学图像合成现已成为学术界关注的重点课题之一。当前主要的研究方向集中在无条件生成模型上,在这一领域中常用的方法是基于深度卷积生成对抗网络(deep convolutional GAN, DCGAN)作为基准模型进行优化与改进。其中 notable的研究成果包括 Kitchen A等研究者通过DCGAN成功模拟出前列腺病变区域的具体影像特征;Schlegl T等人创新性地提出了AnoGAN架构以生成多样的眼科疾病视网膜影像;Chuquicusma M J M团队运用DCGAN技术实现了对肺结节形态特征的数据增强;Frid-Adar M等人则通过DCGAN方法系统性地构建了几类肝损伤样本数据集;Bermudez C等研究团队采用DCGAN的传统训练方法成功生成了高质量的人脑T1加权磁共振影像样本
虽然DCGAN在医学影像合成领域取得了一定程度上的进展,但其主要局限在于只能生成低分辨率的画面。
2.2.2 医学图像模态转换
医学图像的模态转换合成主要分为两类
3 医学图像配准与分割
在众多医学图像分析任务中,通常在获得高质量的医学图像数据后,需要对获取到的图像进行配准处理,并对其进行分割处理。这一步骤完成后即可开展相应的图像分析与识别工作。本节将详细探讨深度学习技术在医学图像配准与分割领域的具体应用。
3.1 医学图像配准
图像配准涉及对不同时间点和不同设备获取的影像数据进行空间位置匹配的操作,在医学影像处理领域具有关键性作用作为预处理步骤之一。该过程广泛应用于多个领域如医学影像融合分析、疾病谱构建、手术导航以及肿瘤定位等研究中。目前深度学习在医学影像配准领域的研究可划分为三类:一类是基于深度迭代算法的方法;另一类是采用监督型深度学习模型;第三类则是以无监督模型为基础的技术体系。第一类方法主要通过深度学习模型建立相似性度量标准并配合传统优化手段实现变形校正但因其运算效率较低而未能充分展现深度学习的优势近年来相关报道较少本文则着重探讨了基于有监督和无监督学习的学习机制及其应用前景
利用有监督学习方法进行配准时,在网络训练过程中必须提供与配准相关联的真实变形数据,并参考图3所示的框架结构。
网络模型的主要目标在于缩小真实变形场与网络输出变形场之间的差异,并将其应用于需要配准的图像以实现配准效果。在有监督学习框架下进行医学图像配准时,获取变形场标签的方法主要有两种:一种是将经典配准算法所得出的变形场作为参考基准;另一种是对目标图像施加模拟形变,并以形变参数作为真实标签。
在基于有监督学习的刚性配准领域中,Miao等研究者首次将卷积神经网络(CNN)与回归模型相结合,在3D X射线衰减映射图与术中实时2D X射线图之间实现了高效的刚体配准;Salehi等团队则创新性地融合了深度残差回归网络和修正网络,在"先粗配准再细配准"策略下,并借助测地线距离损失函数实现了精确的3D胎儿大脑T1加权磁共振图像与T2加权磁共振图像的刚体配准,并成功建立了胎儿大脑图谱;随后Zheng等学者提出域自适应方法论框架,在模拟训练数据与真实测试数据之间构建了成对域适应模块以降低差异性影响,在提升配准鲁棒性方面取得了显著进展
在非线性配准领域中,相比刚性形变场的模拟而言,非线性形变场的模拟难度显著提升。因此,在基于有监督学习的非线性配准方法中,默认采用经典算法获取变形场,并将其作为标签进行模型训练。研究者Yang等人基于U-Net网络模型作为基础架构,在此基础上引入微分同胚算法获取变形场并作为标签进行模型训练。鉴于非线性形变场的复杂性较高,在监督学习中逐渐发展出弱监督配准与双监督配准的概念。弱监督配准通过解剖结构标签提供配准标记信息以学习变形场参数;而研究者Hu等人则利用前列腺超声图像与MR图像的空间解剖特征训练CNN模型以学习变形参数,并将获得的形变参数应用至灰度图像上实现两组图像间的配准效果;此外研究者Hering A等则采用相似度测量与组织分割标签相结合的方式同时训练配准网络从而提升心脏MR图像配准精度;双监督配准策略则通过混合两种监督形式构建损失函数来优化模型性能;例如研究者Cao X H等人在MR图像与CT图像配准任务中先利用生成网络实现两幅图像间的互相对应生成过程随后基于原始与生成图像间的相似度损失优化目标实现了高精度的配准效果;此外研究者Fan J F等人则结合有监督与无监督学习框架下构建复合型损失函数实现了脑部MR图像精准配准的目的;在有监督学习指导下的医学图像配准效果很大程度上依赖于高质量标签数据的质量以及设计合理的损失函数体系因此如何高效生成可靠标注数据并合理设计损失函数体系仍是当前有监督学习指导下的医学图像配准技术面临的重要挑战

图3 有监督深度学习医学图像配准框架
随着空间变换网络(SPATIAL TRANSFORMER NETWORK, STN)的出现而兴起的是基于无监督深度学习模型的医学图像配准问题的研究热潮.其配准网络架构如同所示见图4.
本研究团队将卷积自动编码器(convolutional auto-encoder, CAE)与空间变换网络(STN)模型相结合,并成功应用于神经组织显微镜图像的配准任务中。CAE通过提取待配准图像与目标图像的关键特征信息,并基于此计算出相应的相似性损失函数。实验结果表明该方法能够获得较为理想的配准效果。2018年Balakrishnan G及其团队开发了一种基于U-Net架构的新网络结构VoxelMorph,并在此基础上引入了STN模块以实现磁共振(MR)图像的空间非线性配准过程。随后他们对模型进行了多轮优化,在所提出的改进方案中加入分割标记辅助项以提升评估指标中的Dice分数表现。独立的研究者Kuang D则提出了一个替代U-Net架构的空间变换模块系统,在降低整体模型参数规模的同时实现了高精度脑部MR图像配准效果。为了进一步提升无监督学习框架下的配准精度Zhang J团队除了采用传统的相似度度量作为优化目标外还创新性地引入了三种新的损失函数:变换平滑损失、反向一致性损失以及防止出现折叠变形的额外约束项。这些新增项的设计重点在于确保变形场的整体光滑性和可逆性特性从而有效避免了传统方法中可能出现的问题。近期Tang K等人则通过构建一个端到端的学习框架实现了大脑磁共振成像的空间精确对齐过程其中网络模型同时学习仿射变换参数与非线性变形参数这一创新设计显著提升了算法的实际应用效果
基于CNN模型的无监督配准也已逐渐成为医学图像配准的重要研究方向。其中条件生成对抗网络(GAN)被用来实现医学图像的配准工作。具体而言,在设计GAN架构时通常会将STN模块集成到生成器与判别器之间以提高训练效果。目前基于GAN技术的应用已经涵盖了多个领域如前列腺MR影像与超声影像之间的自动对齐问题以及基于CycleGAN模型的基础研究等。此外在实际应用中GAN网络不仅可以发挥着正则化的作用还能通过调整变形场或优化配准结果来提升整体性能水平。表1列举了典型的无监督和有监督类医学图像配准方法及其主要特点

图4 无监督深度学习图像配准网络框架
3.2 医学图像分割
医学图像分割被视为计算机辅助诊断的核心环节,并构成感兴趣区域定量分析的基础性条件。基于语义分割的深度学习技术迅速发展使得医学图像领域成为拓展模型的主要方向。针对医学图像分割问题而言,
主流网络框架包括卷积神经网络(CNN)、全卷积网络(full convolutional network, FCN)、U-Net、循环神经网络(recurrent neural network, RNN)以及生成对抗网络(GAN)等技术体系。
其中,
FCN被视为深度学习在语义分割领域的开创性模型,
其基础架构由全卷积神经网络支撑并配合上采样技术实现初步语义识别效果。
为了提升细节表现,
引入跳跃连接机制以整合低层空间特征与高层语义信息,
从而优化图像细节捕捉能力。
此外,
FCN及其衍生版本如并行FCN、焦点FCN、多分支FCN、循环FCN等,
已在多个临床应用场景中展现出优异性能表现。

U-Net架构基于一系列卷积层与反卷积层构建编码与解码模块,并借助跳跃连接机制实现高级语义特征与低级空间信息的有效融合,在此基础之上能够稳定地完成图像分割任务的同时确保分割精度。经过系列改进后的变种网络(包括Nested U-Net、V-Net及循环残差U-网等),均展现出优异的性能特点,在医学图像分割领域表现出了较高的性能水平,并被广泛认可为医学图像分割领域的基准方法
RNN类分割模型主要基于医学图像分割中的切片间上下文联系进行建模,并将这些切片作为序列数据输入到RNN及其变体中以实现精确的图像分割。其中典型的方法包括CW-RNN(钟摆型RNN)与基于上下文的LSTM模型。这些方法能够捕捉相邻切片之间的相互关系以增强边缘细节。在此研究基础上Chen J X等学者提出了双向上下文LSTM(BDC-LSTM)模型该方法分别从三个不同的方向(横断面、矢状面和冠状面)进行双向学习,并整合各方向的信息最终其性能优于基于多尺度金字塔结构设计的LSTM模型。
基于对抗网络(GAN)的图像分割的核心概念是通过生成器实现初始分割结果的生成,并通过判别器完成对分割细节的优化。通常在图像分割网络中,生成器多采用卷积神经网络(FCN)或上采样网(U-Net)架构设计,在判别器部分则选用典型的分类模型结构如ResNet、VGG等进行优化配置。基于GAN的方法已被广泛应用于多个器官及组织类型的医学图像分割任务研究中。表2详细列出了常用医学图像分割模型所使用的数据集及其对应的性能指标对比情况。

4 医学图像分类及识别
4.1 医学图像分类
医学图像分类与识别可被视为计算机辅助诊断(CAD)的核心任务。当深度学习尚未普及时,人们通常依赖于人工设定的传统图像特征(如纹理特徵、形状特徵、灰度直方图等),通过这些预设的特徵进行筛选后并结合支持向量机、逻辑回归等机器学习算法展开分类工作。其中最具代表性的方法即为影像学分析技术,在肿瘤分型分期以及治疗预後预测等方面取得了显著成果。然而,在传统方法中,人工设定的特徵及其筛选标准往往会影响分类系统的稳定性和可靠性
近年来深度学习模型发展迅速,在各领域的广泛应用尤其是在计算机视觉相关的研究中取得了显著进展。特别是在卷积神经网络(CNN)方面已获得广泛应用,在医学影像辅助诊断领域已获得广泛应用。目前CNN的不同变体已经在多个临床应用中展现出强大的性能优势。例如,在基于Kaggle公司公开的眼底图像数据集中研究团队采用改进型AlexNet架构对糖尿病视网膜病变进行分类实验结果表明,在肺结节良恶性识别任务中准确率达到了99%左右;而针对心脏疾病检测问题则采用了ResNet模型作为基线框架并取得了令人满意的实验效果
相较于仅提供有限数量的数据集的问题,在临床应用中如何提升智能影像诊断系统的准确性仍面临挑战。为此,在医疗影像领域已逐渐兴起基于知识图谱的知识迁移方法用于提升医学影像分类系统的性能研究方法已成为主流方向之一。其中主要包含两类方法即从常规医疗影像向传统医疗影像的知识迁移以及基于临床知识指导的知识迁移过程在常规医疗影像向传统医疗影像的知识迁移过程中主要包括两种典型策略一种是固定使用常规医疗影像训练过的深度神经网络架构中的卷积层参数来进行特征提取随后结合传统的机器学习算法实现分类任务另一种则是将常规医疗影像训练过的网络架构作为初始权重配置并在新的目标任务上进行微调优化以实现对传统医疗影像的学习过程在此基础上除了上述两类主要的学习范式外还可以采用其他不同的途径如引入多模态 medical imaging 数据集并结合多任务学习框架实现信息共享从而弥补因数据不足导致的传统问题
基于临床知识的指导迁移将临床医生诊断的经验(如医生的经验学习方式、影像诊断方式以及诊断关注的图像区域和特征等)融入模型。根据循证医学的理念与循序渐进的学习规律,在遵循循证医学的理念与循序渐进的学习规律的基础上提出"课程学习"模型,并按照由简到繁的原则划分图像分类的任务难度。首先遵循循证医学的理念与循序渐进的学习规律进行基础训练,在遵循循证医学的理念与循序渐进的学习规律的基础上分别对不同难度的任务展开训练。研究者们提出了一种基于全局与局部特征结合的学习框架——基于全局和局部的分类模型,在胸片和皮肤疾病的诊断上表现出了良好的效果。此外还提出了一种以关注区域为基础引入注意力机制的学习框架——带有注意力机制的分类模型被提出(如AGCNN、LACNN、ABN)。通过引入注意力机制能够使网络更加关注某些区域从而提高分类精度。此外还探索了人工特征与深度学习特征融合的可能性——如Majtner T等人提出的将人工特征分类结果与深度学习分类结果融合的方法能够提高皮肤癌分类准确度;Chai Y D等人提出的结合人工特征与深度学习特征并训练新的分类器的方法能够实现青光眼图像的自动识别;Xie Y T等人提出的将人工提取特征图像块与深度学习提取特征图像块同时作为ResNet输入的方法能够在肺结节检测中取得较高的准确率等
4.2 医学图像目标识别
医学图像的目标识别也是一种临床诊断的技术,在一张图像中明确标注病变区域并辅助医生完成分类工作(如图5所示)。

图5 医学图像目标识别示意图
传统的目标识别标记工作往往耗时耗力。起初,在目标识别领域中应用深度学习模型时,主要的做法是将图像分割成小块片段,并逐一输入由CNN等多种算法构成的二分类模型进行判断。然而,在Fast R-CNN与Mask R-CNN等模型兴起后,在较短的时间内即可完成对整幅医学图像的整体分析。尽管这类方法仍包含区域建议模块与分类模块交替更新以提高检测精度的过程(此处应补充:但两类方法均存在一个区域建议模块与一个分类模块交替更新的过程),但其速度仍无法满足临床操作对实时性要求的需求。为此类技术的出现使得目标检测的速度得到了显著提升。随后,在此类技术框架下提出了一种名为RetinaNet的新架构设计,并将其成功应用于病理切片、钼靶X光片等领域的乳腺肿瘤识别以及CT影像下的肺结节探测工作中。值得注意的是这些方法均针对二维(2D)形态的目标检测问题而设计 未能考虑到三维(3D)医学影像中的各切片间的空间关系及其重要性
除此之外,在医学图像目标识别领域中同样面临着数据不足的问题。针对这一问题的解决,基于迁移学习的医学图像识别技术逐渐发展和完善。例如通过从ImageNet等公开数据集迁移模型参数,在肺结节、乳腺癌及结直肠息肉检测等方面取得了显著成效。此外一种方法则是以临床经验知识为指导进行迁移学习,并在医学图像的目标检测中展现出良好的效果。其中AGCL模型作为一种创新性的方法具有显著优势它主要依赖于注意力机制结合课程学习策略实现了胸片样本中的肿瘤定位任务。另一个重要的是CASED模型这种基于 curriculum adaptive sampling 的方法特别适用于极少数样本场景它能够有效地检测出CT图像中的肺结节区域。最后特征金字塔网络FPN则通过多尺度特征提取的优势进一步提升了肿瘤检测的准确性水平这些方法共同构成了现代医学图像分析的重要技术框架
从临床应用的角度来看,图像分类与图像目标识别被视为医学影像分析的核心任务。这也是当前人工智能技术与临床医学深度结合的主要研究领域。本文主要探讨了分类识别的关键方法及其应用前景。表3系统地列出了肿瘤分类中常用的医学图像数据集及其对应的深度学习模型,并对它们的分类性能进行了详细对比分析。

5 结束语
本文主要探讨了医学图像数据生成过程、预处理方法以及在识别与分类中的应用。尽管目前深度学习模型(如CNN、LSTM、GAN等)已在医学图像分析领域取得显著进展,并展现了强大的特征提取能力与模式识别能力[1] ... ,然而在临床应用方面仍面临诸多方面的制约因素
首先,在现有条件下应用深度学习模型时会遇到两个主要限制:其一是对影像的数量与质量都有较高要求的问题;其二是获取带标记医学影像数据极为困难的问题。与此同时,在临床诊断与预测中常用的有监督学习方法也存在局限性。此外,在数据不足的情况下预测效果的好坏就显得尤为重要。因此,在现有标注样本较少的情况下如何通过结合弱监督、迁移学习和多任务学习的方法提升分类预测的效果将成为了当前研究的重点方向
此外,在临床应用方面对模型的可解释性有较高的需求。然而现有的深度学习模型在特征提取方面存在不足。尽管当前研究者们已经尝试通过可视化技术以及参数分析等手段来辅助模型解读但这些方法仍与临床界所期望的形成具有实用价值的医学影像标记尚存在较大差距。因此在医学图像领域探索深度学习模型及其可解释性的研究将成为未来的重要方向
最后阶段,提升模型预测鲁棒性的难题有待解决.现有的深度学习模型大多仅在单一数据集上表现出较好的效果,无法在无训练的情况下较好地预测其他数据集.医学影像因受采集参数、采集设备及采集时间等因素的影响而表现出多样性特征,这也正是导致现有医疗图像分析技术存在局限性的根本原因.通过融合脑认知理论对 model 架构和 training 方法进行优化调整,以增强 model 的 generalization 能力,也是当前医学图像应用领域中的关键研究课题.
作者简介
王丽会女士(1982年以后),拥有博士学位。她目前任职于位于贵州省的高校机构——贵州大学计算机科学与技术学院,并在该学院下的贵州状态智能医学影像分析与精准诊断重点实验室中担任讲师职位。她的主要研究领域包括医学成像、机器学习以及深度学习等技术,并同时涉及医学图像处理和计算机视觉相关工作
秦永彬出生于1980年代初左右(或其他时间表述),性别为男性;他拥有博士学位,并在贵州大学计算机科学与技术学院以及贵州省智能医学影像分析与精准诊断重点实验室担任教授一职;他的主要研究领域集中在大数据治理及应用、文本计算与认知智能等方面
联系我们:
Tel: 010-81055448
010-81055490
010-81055534
E-mail: bdr@bjxintong.com.cn
《信息通信技术期刊》第2096-0271期
http://www.j-bigdataresearch.com.cn/
转载、合作: 010-81055537
大数据期刊
《大数据(Big Data Research, BDR)》月度期刊由中华人民共和国工业和信息化部作为主办单位, 人民邮电出版社作为出版机构, 中国计算机学会大数据专家委员会提供学术指导, 北京信通传媒有限责任公司担任出版工作.该刊已成功入选中文科技核心期刊行列, 被选定为推荐中文科技期刊之一, 并荣获2018年和2019年国家哲学社会科学文献中心数据库"综合性人文社会科学"学科领域的最佳期刊荣誉称号.

关注《大数据》期刊微信公众号,获取更多内容
