论文笔记 / Deep features for breast cancer histopathological image classification
这篇论文探讨了在乳腺癌组织病理学图像识别中使用DeCAF特征(基于深度学习的特征提取)的可行性。研究利用BreaKHis数据集,该数据集包含来自400名患者的乳腺肿瘤显微图像,分为良性和恶性两类,是目前最全面的乳腺癌图像数据集之一。论文比较了基于传统手工特征、任务特定的CNN和DeCAF特征的性能。
DeCAF特征是通过使用预训练的CNN作为特征提取器,仅在任务相关的分类任务上进行微调得到的。与传统手工特征相比,DeCAF在图像级别的准确度上表现更好,尤其是在40×和100×放大系数下,分别达到了84.3%和86.0%。与任务特定的CNN相比,DeCAF在200×和400×放大系数下,患者级别的准确度分别达到了86.3%和84.6%。
实验结果表明,DeCAF特征在资源有限的情况下,提供了高效且可行的解决方案,尤其在无需重新训练CNN的情况下。此外,作者还提出了一些未来研究方向,包括使用更复杂的补丁或结合其他视觉描述符以进一步提高准确性。这项研究为医学图像分析和计算机辅助诊断提供了重要的见解。
为参考,如有翻译错误建议指出。请注明引用来源!论文地址:...
摘要
乳腺癌(BC)是一种致命疾病,每年导致数百万人死亡。开发用于患者图像的自动化恶性BC检测系统的目的是为了更有效地解决这一问题,同时使诊断更具可扩展性且不易出错。这种研究不仅限于BC,其扩展到其他类型癌症的意义更为重大,对挽救生命将产生深远影响。近期关于BC识别的研究表明,基于CNN的算法在识别率上超越了人工特征描述法,但代价是系统复杂度增加、开发周期延长以及专业技能要求提升。DeCAF(或深层)功能通过重新利用已训练CNN作为特征向量,并将其作为仅针对新分类任务训练的分类器的输入,提供了一种中间解决方案。基于这一背景,我们提出评估DeCaf特征的方法,以期更深入地理解其与其他方法的比较优势。实验结果表明,这些特征为开发快速高精度的BC识别系统提供了可行方案,通常在性能上超越传统纹理描述法,并在某些情况下优于专门设计用于该任务的CNN。
1、介绍
癌症已成为一种在全世界范围内快速发展的致命疾病。其中,国际癌症研究机构(IARC)出版的刊物是世界卫生组织(WHO)官方认可的学术资源,仅统计了2012年因癌症导致约820万生命的终结。预计到2030年,乳腺癌的发病率将显著增加至约2700万新病例[1]。乳腺癌是全球女性最常见的癌症之一,且其死亡率在全球癌症中占据显著比例。尽管组织病理学诊断方法依赖于显微镜下的组织样本观察,尽管这种方法在临床应用中仍然广泛使用,但其诊断的准确性仍需进一步提升。尽管组织病理学图像的自动分类系统在理论上具有潜力,但目前的研究仍主要集中在小规模数据集上,这限制了系统性能的进一步提升。BreaKHis数据集的发布标志着乳腺癌组织病理学图像识别研究的重大进步,该数据集包含来自80名患者的4种不同放大倍数的图像,为研究者提供了更全面的数据资源[3]。
当前BC识别的最新进展主要采用两种主要方法:一种是基于传统图像处理的特征提取,另一种是深度学习中的卷积神经网络(CNN)方法。在[3]中,所采用的方法通常被称为视觉特征描述符或手工特征,这些方法主要通过评估六个不同的特征集和四个基本分类器的组合来实现性能。相比之下,[4]和[5]中的方法采用了深度学习的趋势,其中卷积神经网络(CNN)被训练用于BC识别问题。第一种方法是基于独立于放大的单任务和多任务CNN架构,第二种方法则是从头开始的CNN,也称为任务特定的CNN。实验结果表明,第二种方法(任务特定的CNN)在识别率上表现更为出色。然而,这种方法的开发需要更长的训练时间,并依赖随机补丁等技术来提升性能,同时仍需开发人员的专业知识进行系统调优。
在文献中常被采用的替代方案通常被称为DeCAF特征或神经代码。该方法仅将预训练的CNN重新配置为特征提取器,在此基础上,仅需为新的分类任务训练新的分类器参数。该方法已被证明是一种高效可靠的通用图像特征提取方案,在多个任务中展现出具有竞争力的性能。虽然在大数据集上从头训练CNN仍能获得最佳准确度,但当具备适当资源时,DeCAF功能可作为开发高精度系统的一种可行替代方案,类似于基于手工制作功能的替代方案。因此,如果DeCAF特征在性能上优于其他视觉特征描述符,则可将其作为开发高精度图像识别系统的标准起点。与该领域相关的精确系统开发,例如用于识别其他类型癌症的系统,将能够更快地完成。
基于这些观点,这项工作的核心关注点在于评估分析DeCAF特征在BC组织病理学图像分类中的应用,并将BreaKHis数据集作为基准进行评估,以比较分析该方法与手工描述符和任务特定CNN之间的差异。具体而言,我们的目标是通过预先训练的CNN从网络的不同层级提取DeCAF特征,以分析这些特征是否能够达到与视觉特征描述符竞争的水平,例如[3]中所提出的方法。此外,我们还旨在比较分析该方法与基于深度学习的其他方法之间的差异,包括从头开始训练的CNN问题,如[4],以及独立放大CNN方法,如[5]所提出。为了实现这些目标,我们采用了[11]中最初提出的核心多特征向量(MFV)框架,该框架支持在不同场景中评估该特征集,例如通过分析子图像的分类结果(我们将其称为补丁)以及/或结合不同特征集的组合。在这种情况下,我们不仅可以在基于补丁的方法中评估DeCAF特征的性能,还可以结合来自预训练CNN的不同层级的DeCAF特征进行分析。
2、相关工作
在文献中,最早记载癌症诊断自动成像处理工作的已有40余年历史[12]。尽管该领域已持续关注该问题多年,但由于需要处理的图像高度复杂,开发解决方案仍面临巨大挑战。
近年来发表的与该主题相关的大量研究论文,通过其深入分析,揭示了研究领域对该主题的浓厚兴趣。值得注意的是,近期针对BC分类的研究工作主要聚焦于整体幻像(WSI)。然而,整体幻像(WSI)及其在数字病理学中的应用,面临着实施和操作技术成本高昂、大批量临床常规处理效率不足、技术相关内在问题以及监管问题尚未得到根本解决等障碍。值得注意的是,这种文化上的抵触现象 [19] 也对研究进程产生了不利影响。
另一个相关方面是,近年来,关于BC组织病理学图像分析的主要研究工作仍局限于小规模数据集。另一个主要问题是,科学界通常难以获取这些数据集,这不仅限制了研究人员开发新系统的能力,因为需要从图像中收集样本来构建训练集,而且也使基于系统的应用难以实现。为了弥合这一研究资源的差距,BreaKHis数据集已正式发布并免费提供给研究界[3]。该数据库包含来自乳腺肿瘤外科活检(SOB)的显微图像,总计7,909张,分为良性肿瘤和恶性肿瘤两类。这些图像按四种不同的放大级别(或缩放级别,我们采用的术语)收集:40×、100×、200×和400×。从乳腺组织活检载玻片获取样本,采用苏木精和曙红(HE)染色法进行染色。这些样本用于组织学研究,并由Prevenção&Diagnose(P&D)实验室的病理学家进行标记。采集的数字图像具有3通道RGB(红-绿-蓝)TrueColor(24位深度,每通道8位)色彩空间,尺寸为700×460像素。图1展示了该数据库中四个放大级别的样本集。BreaKHis数据库的详细说明可在[3]中查阅。

图1。取自breakhis数据库的乳腺恶性肿瘤图像样本。该组图像基于不同放大倍数进行展示,使用He染色法观察,具体包括(a)40倍、(b)100倍、(c)200倍和(d)400倍的放大效果。
自BreaKHis数据集发布以来,研究者们已陆续提出多种基于该数据集的方法。在文献[3]中,作者探讨了对六种不同视觉特征描述符的组合方式以及各类分类器的性能评估。他们报告的精度范围在80%至85%之间,这一数值可能因图像放大系数的不同而有所变化。Span-hol等方法则来自CNN。值得注意的是,由于CNN通常需要大量标注数据,研究者们采用了随机补丁技术,在训练和测试阶段均会提取子图像。在训练过程中,具体方法是通过在随机位置定义窗口来提取补丁,从而增加训练数据量。而在测试阶段,则会从固定网格中提取补丁,并在对每个补丁进行分类后,将分类结果进行集成。作者认为,采用此方法可使分类精度提升约4至6个百分点。最近,Bayramoglu等研究者提出了不依赖放大因子的BC组织病理学图像分类方法,其性能与文献[3]中基于手工特征的最先进方法展开竞争。
值得注意的是,深度学习方法在多个任务中表现更优。尽管如此,实现良好性能受训练集大小或专业训练方案影响,例如随机补丁,通常需要较长的训练时间。避免必须处理大型训练数据集和长训练时间的解决方案,并且最近报告具有优异性能,是基于重用现有预训练CNN。这种方法通常被称为DeCAF特征或神经代码,之前已在物体识别[7]、图像检索[8]、纹理识别[9]等任务中应用。
3、DeCAF功能
DeCAF功能的设计包括从图像中提取特征向量并将其作为分类器的输入向量,这与传统特征集的使用方式相似。然而,DeCAF基于表示学习机制,通过学习,神经网络能够将原始数据(即图像的像素)转换为更高级的表征[20]。DeCAF与基于CNN的标准方法(如[4]、[6]、[21])的主要区别在于,前者直接利用已训练好的CNN作为特征提取器,其输出结果被进一步分类器进行分类处理。这种设计使得DeCAF在保持高效性的同时,能够更好地适应特定任务需求。
具体而言,DeCAF特征集通过利用预训练的神经网络架构和参数,结合前馈过程将输入图像进行传递,并以网络指定层的输出作为输入。分类器[7] - [10]。为实现这一目标,我们采用了预先训练的BVLC CaffeNet Model 1(简称CaffeNet),该模型由Caffe深度学习框架2提供。基于未经过数据增强训练,该模型对AlexNet进行了适度修改[21],其主要区别在于:未进行数据增强训练,并且调整了池化与归一化层的顺序,具体而言,归一化操作发生在CaffeNet池层中。
该CaffeNet模型在ImageNet数据集[22]上进行了训练,具体而言,该模型基于ILSVRC12挑战发布的数据集进行了训练,并在验证集上实现了1%前1次准确度和5%前5次准确度。该数据集包含了约120万样本,分布在1,000个不同的类别中。鉴于该数据集的类别数量、多样性以及样本量的丰富性,主要假设是基于该数据集训练的CNN提取的表示能够很好地定义出高度通用的特征提取器。
为了实现CaffeNet模型的特征提取器功能,我们通过CNN的最高层输出,包括fc6、fc7和fc8层(图示位于图2的右下方)。接着,这些层的输出向量可以作为分类器的输入,仅针对特定任务的数据进行训练。
4、实验
在本节中,我们对BreaKHis数据集进行了系统性实验评估,以考察不同场景下的DeCAF特征。基于影像级别的准确度指标和患者层面的准确度指标,我们独立评估了每个级别的准确度。其原因在于,一般情况下,医学成像中的决策由患者层面的决策主导。为了更深入地探讨,我们在下面定义了两个指标。
图像级精度仅是正确分类图像数量相对于总图像数的比例。即,图像级精度定义为:设ñ表示数据集中图像的总数,其中ñC表示正确分类的图像数量,即定义为:
图像级精度=Nc / Nim
从另一方面看,患者级的精确度等同于每位患者平均的图像级准确度。更严谨地说,让我们ñP代表患者总数,ñpC表示来自患者的所有正确分类图像的数量,而ñp同一个患者的图像总数,患者级别的准确度定义为:

在该项研究中,我们虽然面对的是网络结构较为复杂的CaffeNet模型,但主要关注的却是其三个最顶层的特征提取,具体包括fc6、fc7和fc8这三个层。这些层分别由4096维、4096维和1000维的空间构成,考虑到这些向量的维度较高,我们主要选择Logistic回归作为基本分类器。这种选择基于其在训练和分类阶段的高效性,同时能够提供概率值作为分类依据。
实验采用了以下方式组织。通过基于补丁的识别和不同配置的考量,我们首先分别利用fc6、fc7和fc8层的输出来单独评估DeCAF功能集的效果。这些实验主要基于MFV框架(如[11]所述),通过分析具有1、4和16数量的系统补丁来探究其对DeCAF特征准确性的影响。这些实验的主要目标是考察不同层的DeCAF特征的准确性差异,以及在基于补丁的分类任务中所受影响。
然后,我们同时进行类似的实验,但同时考虑多个特征集的组合,即来自网络的多个层的特征。在[11]所提出的框架下,我们实现了这个想法,其中功能组合考虑了基于补丁级别的输出。
为了便于对比现有技术,基于[3]和[4]中的相同分区,采用了五重复制技术。

图2展示了alexnet模型的实例(源自文献[21])作为caffe框架的基础模型。在图的右下角部分,列出了顶层的引用信息。
A.结果
在先前设定的基础上,我们对第一评估方案进行了详细设计,该方案从三个层次中提取的DeCAF特征,分别来自fc8层、fc7层和fc6层。每个层次均采用不同数量的特征块进行分析,具体为1、4和16个块。这些结果在表I中进行了详细展示。通过对比实验发现,fc8层的特征在所有测试条件下表现最差,而相较于fc7和fc6层,首次评估方案在性能上略具优势。在缩放级别方面,该方案在4个级别中表现出最佳患者级别准确度,其中两个放大因子的设置在图像级别上达到了最佳水平。值得注意的是,关于补丁的使用,实验结果表明这一方法可能提供了一种值得探索的替代方案,以提升相关功能的表现。具体而言,在400 ×缩放级别上,通过使用单一图像补丁即可实现最佳患者级别准确度。然而,在其他缩放级别上,最佳结果的获得需要至少使用4个补丁。值得注意的是,在200 ×缩放级别上,采用16个补丁的系统表现同样令人满意。
B.使用组合的结果
该评估基于层fc6、fc7和fc8的DeCAF特征组合的实验结果。在考虑可能的四种特征集和空间限制的情况下,仅关注层6、7和8。即6+7+8、6+7、6+8和7+8。由于我们发现同时结合三层特征未达到最佳识别效果,表II仅展示了两两组合的结果。
经过实验验证,尽管我们发现某些情况下模型的准确性有所提升,但相较于单个特征集在时间上取得的最佳结果,最大提升幅度仅为0.3%,即从86.0%提升至患者准确率为86.3%。同时,图像精度也经历了显著提升,从84.3%增加到84.6%,放大系数为40倍。
C.方法准确性的比较
在表III中,我们对基于传统手工提取的特征[3]、任务专用的CNN模型[4]以及本研究提出的DeCAF特征进行了评估。这些方法在F1分数(亦即文献中所称的F-score,参考文献[23])方面进行了比较,其值由精确率与召回率的调和平均数给出(如公式(3)所示)

表1展示了精度指标及其标准偏差,未分层的组合情况。其中,P标记为患者级别的准确度,I标记为图像级别的准确度,P则表示补丁的数量。表格采用加粗显示,背景为灰色,并对每个级别和放大系数的最佳结果进行了突出显示。

在进行患者水平评估时,我们计算了所有患者F1评分的平均值,这与公式(2)中所定义的患者水平准确度具有相似的计算方式。该指标能够更好地评估检测阳性病例(即恶性癌症)的准确性,其中这种检测中的错误对于这类问题是非常昂贵的(它可能花费患者的生命)。一般来说,F1得分更能突出DeCAF功能的优异表现。与[3]中发表的视觉特征提取器的性能相比,我们的方法在患者和图像级别得分方面优于其他方法。与来自[4]的任务专用CNN相比,我们可以观察到与整体精度相似的结果。然而,在100倍放大系数下,我们观察到的方法间的差异有所缩小。

表II中,通过结合FC6、FC7及FC8层的去咖啡化特征,获得了相应的精度,这些精度各自具有不同的标准偏差值。其中,P代表患者级别的准确度,I代表图像级别的准确度,而补丁的数量则由P进行表示。表格采用粗体显示,背景设置为灰色,并对每个级别和放大系数的最佳结果进行了突出显示。

表III:Table III presents the F1 scores for three methods across patient and image levels. Among the three methods, the best performance is highlighted in bold, with results in gray indicating superior outcomes achieved in this study compared to those reported in reference [3]. Note that combined classifiers are marked with an asterisk (*)
D.讨论
为了更深入地理解这项工作所获得的结果,我们对表IV进行了归纳,将其与[3]、[4]及[5]中报道的最佳结果进行比较。其中所有结果均基于患者的评分数据,且不涉及图像水平分析。
研究结果表明,与使用更传统的视觉特征描述符相比,DeCAF特征通常能够提供更好的表现。例如,LBP(局部二进制模式)[24]和PFTAS(参数自由阈值分析)[25]等经典视觉特征描述器在大多数情况下表现不如DeCAF特征。此外,还有其他相关方法,如[26]中的改进版本,进一步提升了性能。在近一半的情况下,其识别率甚至超过了基于CNN的方法[4]和[5]。与传统方法相比[3],在200倍的缩放级别上,两种方法在图像级精度上表现接近,但DeCAF在患者级别的精确度上却有所下降,甚至在400倍的缩放级别上,其准确率相对降低了40%。与[4]中提出的基于CNN的方法相比,DeCAF的功能不仅在患者级别的准确度上表现更优,而且在图像级精度上也取得了显著优势。值得注意的是,在不考虑[4]中提出的分类器组合的情况下,DeCAF特征的系统在400倍的缩放级别上仍能以患者精度击败CNN。然而,在100倍的缩放级别上,两种指标下CNN的性能表现更为突出,其优势范围可达4.5%到6.0%。这些结果表明,针对特定任务的CNN可能在处理具有更细粒度结构的图像时表现更为出色,而DeCAF特征则更适合处理更粗粒度的问题。

表IV展示了与现有文献的比较结果。其中,最优结果以粗体显示,而灰色背景中,表示在本工作中获得更优结果的情况。此外,多个分类器的组合结果以星号*标注。
5、结论
在本研究中,我们聚焦于BreaKHis数据集,以评估基于DeCAF特征的乳腺癌识别方法。由于BreaKHis数据集规模较大,我们得以在同一数据集上进行对比实验:一方面比较自定义训练的CNN与基于自然图像训练的CNN(DeCAF)特征的重新利用,另一方面则探讨了医学图像数据集通常因样本数量有限而难以实施的挑战。研究结果表明,DeCAF特征可作为深度学习构建图像识别系统的有效替代方案,并且基于该特征的系统在识别性能上优于仅依赖视觉特征描述符的方法。与从零开始训练的CNN相比,DeCAF方法的性能表现可比,且其训练效率具有优势。特别需要注意的是,为解决本问题而专门训练的CNN模型需要采用更为复杂和耗时的训练方案。
该发现对于计算机辅助诊断中基于未来分类的系统的设计具有重要意义,因为它揭示了深度学习的特征,即使通过在其他类型图像上训练的CNN获得,其价值依然显著。本研究通过这项探索,向医学图像分析和CAD / CADx系统的迁移学习迈出了一大步,如参考文献[27]所示,CNN在ImageNet上的训练不仅能够检测医学图像中的结节,还为后续研究提供了重要的参考框架。
未来的一项重要工作是通过使用补丁来提升DeCAF功能的识别准确性。进一步研究补丁的大小以及重叠的补丁可能有助于提高DeCAF功能所获得的准确度。一项值得进一步探讨的研究方向是将这些特征与其他视觉描述符和任务特定的CNN结合起来,以利用这些方法的互补性。此外,对特征和分类器选择的更深入的调查也可以提高性能。
个人总结
我会将每篇文章翻译出来,以供参考。由于非专业的身份,可能导致翻译质量不高,还请大家多多包涵与指正。如若发现侵权行为,烦请告知以便处理。
