Advertisement

基于初始残差循环神经网络的乳腺癌组织病理学图像的分类

阅读量:

该研究采用基于Inception循环残差卷积神经网络模型对乳腺癌组织病理学图像进行分类分析

摘要

深度卷积神经网络(DCNN)最为强大的深度学习方法之一,在不同类型的医学图像识别任务上展现了卓越的效果。 乳腺癌是全球女性中最常见且死亡率最高的癌症之一,在本文中我们提出了一种基于初始残差循环神经网络(IRRCNN)模型用于乳腺癌分类的方法. IRRCNN是一种综合性的深度卷积神经网络模型 融合了Inception Network (Inception-v4) 残差网络(ResNet)以及循环卷积神经网络(RCNN)各自的优势. IRRCNNAI针对对象识别任务显示出优于等效于初始使用的各基底架构包括ResNet及RCNN性能. 在本文中IRRCNNAI方法被应用于两个公开可用的数据集BreakHis及Breast Cancer(BC)Classification Challenge2015上的乳腺癌分类问题. 实验结果基于补丁的图像级别与患者级别的分类对比现有机器学习及基于深度学习的方法展示了显著的优势. 与两种数据集上的现有方法相比在灵敏度曲线下面积(AUC)ROC曲线以及全局精度等方面表现出了显著的优势.

关键词 深度学习 DCNN IRRCNN 计算病理学 医学影像 乳腺癌识别

Introduction

就目前而言,癌症已成为导致世界范围内发病率及死亡率最高的原因之一。根据美国癌症协会(ACS)在美国的一项研究显示,在2017年约有41,000名因乳腺癌去世的人;到2030年这一数字预计将达到28,976,659人。研究指出,在所有类型的癌症中,乳腺癌致死人数约占所有癌症相关死亡人数的14%(约41,687人),这一比例超越了肺癌和结直肠癌成为女性第二大致死疾病;同时占新发病例总数约39.8%(约5,869,678人)。作为美国女性最常见的恶性肿瘤之一,在确诊时医生通常会采用乳房组织活检术配合显微图像分析技术[1]。通过乳房组织活检技术,病理学家能够在微观层面上观察乳房组织的结构及成分;这些观察结果则有助于进行预后分析[2]。

良性病变是指乳腺实质正常组织的变化,与恶性肿瘤的进展无关。存在两种不同的癌组织类型,包括原位癌、浸润性癌。原位组织类型是指包含在乳腺导管 - 小叶内的组织。另一方面,浸润性癌细胞扩散到乳腺导管 - 小叶结构之外。在专家进行视觉分析之前,活组织检查期间收集的组织样本通常用苏木精和伊红(H&E)染色。在诊断过程中,受影响的区域由全切片组织扫描确定[3]。此外,病理学家用不同的放大因子分析来自活组织检查的组织样本的显微图像。如今,为了产生正确的诊断,病理学家考虑图像中的不同特征,包括图案,纹理和不同的形态特征[4]。分析具有不同放大系数的图像需要对每个图像进行整体平移,缩放,聚焦和扫描。这个过程非常耗时且令人厌烦的;因此,这种手动过程有时会导致诊断乳腺癌的诊断不准确。由于数字成像技术在过去十年中的进步,不同的计算机视觉和机器学习技术已应用于分析微观分辨率下的病理图像[4,5]。这些方法可以帮助自动化与诊断系统中的病理工作流程相关的一些任务。然而,在临床实践中使用有效且稳健的图像处理算法是必要的。不幸的是,传统方法无法满足期望。因此,我们基于组织学图像的自动乳腺癌检测的实际应用仍然有一定的距离[5]。

然而,在计算机视觉、图像处理以及语音识别等领域的各类识别场景中,“深度学习(DL)”均展现了卓越的效果[6]。这些技术已在医学图像分析中展现出卓越的效果[7]。它们不仅涵盖病理成像,在分类、分割以及检测等方面的性能都非常出色[7]。一些案例表明,在临床实践中嵌入基于深度学习的技术已逐渐成为常规流程的一部分[7]。例如,在皮肤癌检测方面已有皮肤科专家级别的表现,在糖尿病性视网膜病变分析方面取得了突破性进展……神经成像领域则利用深度学习进行脑肿瘤以及阿尔茨海默病的研究与诊断[7]。此外,在肺癌检测与乳腺癌诊断方面也展现了显著优势[7]。尽管这些技术已在医学图像分析领域取得了显著成效[8](如引用文献),但其数据标注需求仍然面临诸多挑战:一方面需要大量高质量标注数据支持训练过程;另一方面则需要专业技术人员对昂贵的数据集进行深入标注与解析[8](如引用文献)。基于上述问题背景与研究需求,在本文中我们提出了一种改进型IRRCNN模型——针对乳腺癌自动化的多模态特征提取系统——以期解决现有技术体系中的不足之处。

  1. 基于IRRCNN模型实现了恒定放大倍数下的乳腺癌两类及多类诊断任务。
  2. 对BreakHis等知名乳腺癌组织病理学数据集进行了系统性实验,并采用不同分辨率(包括×40, ×100, ×200 和×400)对图像及患者水平的数据进行了评估。
  3. 针对BreakHis数据集及其2015年乳腺癌分类挑战数据集分别进行了基于图像whole-image 和基于Patch块的评估。
  4. 将研究结果与当前最前沿的深度学习及机器学习方法进行对比分析,在现有乳腺癌诊断算法中 our proposed model表现出显著优势。

本文架构概述如下:首先介绍相关研究领域的工作进展;其次详细阐述了IRRCNN模型体系架构的内容;接着具体分析了数据集特征、实验参数设置及研究结果;最后部分总结研究发现并展望了未来发展方向。

在过去的十年里,在组织学图像分析方面对乳腺癌(BC)的认识取得了重要进展,并且大部分的研究都聚焦于利用计算机辅助诊断(CAD)技术区分良性的乳腺癌和恶性肿瘤两种类型。在深度学习技术兴起之前的研究中,则主要依赖于支持向量机(SVM)、主成分分析(PCA)、随机森林(RF)等机器学习方法结合尺度不变特征转换(SIFT)、局部二值模式(LBP)、局部相位量化(LPQ)、灰度共生矩阵(GLCM)、阈值邻接统计量(TAS)以及无参数TAS(PFTAS)等多种特征提取方法来进行研究与分析。值得注意的是,在2016年发布的一个广受欢迎的乳腺癌分类数据库中的一项研究指出,在患者水平上利用SVM和PFTAS特征达到了85.1%的最高准确率[8]。而另一次研究则于2013年发表,在分析来自50名患者的500个样本的数据集中探讨了细胞核分类问题。采用多种算法进行评估后发现,在二分类任务中(良性与恶性),系统的准确性范围达到96%至100%[9]

基于神经网络(NN)和SVM的方法在2013年首次提出了一种乳腺癌识别系统。该系统由包含92个样本的数据集构成,并且分类准确率达到94% [10]。相比之下,在以色列理工学院测试的另类方法采用了级联拒绝选项(cascading with a rejection option)这一技术,并在包含361个样本的数据集中达到了约97% [11]的分类准确度。通常情况下,在这一领域研究中使用的数据集往往仅包含较少数量的样本。最近的一项研究对乳腺癌检测与组织学图像分析进行了深入调查,并清晰指出了现有公共可用注释数据集之间的二元性及其局限性 [12]。为此已开发出一种有效的框架体系,在这种框架下融合了颜色纹理特征并采用投票技术构建了多个分类器;在患者水平上的乳腺癌分类平均分类准确率为87.53% [14]。该系统整合了支持向量机(SVM)、决策树(DT)、最近邻分类器(NNC)、判别分析法(DA)以及集合分类器等多种算法模型;在2017年前的所有机器学习方法中实现了最佳诊断精度 [15]

除此之外,在乳腺癌识别领域已有诸多研究采用深度学习方法进行探讨。其中卷积神经网络的变体被用于分类任务。值得注意的是,在2016年时一种基于独立放大倍数的乳腺癌分类方法就已经被提出,并且该方法主要依赖于不同尺寸的卷积核(包括7×7、5×5和3×3)来进行特征提取与分类操作。随后于同一时间段内提出了基于类似AlexNet架构的不同融合技术方案(包括加法、乘法以及最大值操作),这些技术不仅用于乳腺癌图像级别的分类工作而且也成功应用于患者级别的分类任务中。根据本研究实验结果表明,在图像水平上的识别率达到90.0%,而在患者水平上的识别率达到85.6%。此外另一种基于深度学习的方法在2017年得以出版并获得了广泛关注这种方法的基本思路是通过预先训练好的CNN模型提取特征向量随后将这些特征向量作为分类器输入数据从而实现目标检测的目的这一方法被称为DeCAF系统并实现了优异的研究成果具体表现为在图像级别上达到了86.3%的同时也在患者级别上获得了84.2%的成功率

在2017年期间,CNN模型被应用于来自具有挑战性的另一个数据集的H&E染色乳房活检图像分析[17].这些图像被划分为四类:正常组织,良性病变,原位癌和浸润性癌.研究[17]对两种评估方法进行了评估,包括基于单幅图像和基于分块图像的方法.通过使用基于CNN的方法在2015年的乳腺癌分类挑战数据集上实现四分类任务,该模型达到了约77.8%的识别准确率,并实现了约83.3%的二分类准确率.近期的研究中,一种称为CSDCNN的新结构化深度学习模型被引入用于乳腺癌病理学多分类问题.该模型相较于基于BreakHis数据集的传统机器学习方法或深度学习架构表现出显著优势,展示了其在图像级和患者级分类方面的卓越性能.根据已有研究报道,采用该模型后,乳腺癌患者级别的平均诊断准确性可达93.2%[18].相比之下,近年来还出现了多种不同类型的SVM技术用于乳腺癌识别任务;其中针对高倍放大倍数(×40)的数据,自适应稀疏SVM(ASSVM)达到了94.97%的高精度[19].然而,我们的研究工作则提出了一种新型深度学习架构——初始循环残差卷积神经网络(IRRCNN)——并将其成功应用于BreakHis数据集以及2015年乳腺癌分类挑战数据集上的任务

IRRCNN Model for Breast Cancer Recognition

深度学习方法在具备充足标注数据的前提下展现出卓越的效果,并且近年来,在计算机视觉和医学图像领域中出现了多种形式的先进深度学习方法。其中一种创新性较高的体系即IRRCNN架构(参考文献[20,21]),这种混合型深度神经网络结合了Inception架构(引用文献[22])、残差网络(ResNet)以及改进型RCNN框架的特点。相较于包括Inception、ResNet和混合型深度学习架构在内的现有方法,在参数规模相近的情况下实现了更为卓越的表现。该体系采用了基于Inception-v4模块设计的基础残差单元(引用文献[2])。实验数据显示,在性能方面IRRCNN架构显著优于其基准ResNet变体。

在这里插入图片描述

Fig1:展示了基于IRRCNN模型完成乳腺癌识别的过程流程图。 该流程图分为上下两个模块来呈现整个系统的工作流程:上部模块详细描述了系统训练阶段的操作步骤下部模块则展示了利用训练好的模型进行实际测试的具体过程。通过一系列关键性能指标对这些测试结果进行了量化评估和分析。

在这里插入图片描述

Fig.2 图中展示了该研究框架中的关键组件 [1] ,其中包含了通过融合连接后的基础单元以及带有深度循环卷积层的设计 [2] 。此外,在构建残差路径时需要考虑的是输入特征与其原始路径上的最终表示之间的关系 [3]

在IRRCNN架构中扮演核心角色的是循环相关单元(RRU),其主要组成部分包括循环卷积模块(RCLs)、并行激进单元以及残差连接结构。输入信号首先传递至输入层,在随后进入循环卷积模块(RCLs)所包含的独特并行激进路径上进行处理。每个时间步长对应的处理操作由特定参数t决定:当t=2时(指当前时间为第3个时间步长),表示前馈卷积操作覆盖了IRRU内部的两个循环卷积层;类似地,在t=3时则涉及三个循环卷积层的操作。值得注意的是,在IRRU模块内由于残差连接的存在,特征图的空间维度保持不变。这种累积效应使得系统在参数数量相同的情况下实现了卓越的性能。

RCL(递归卷积层)的操作基于[20]中所提出的IRRCNN模型所表示的时间序列离散化过程。 在分析过程中, 我们关注于IRRCNN模块第l层上的输入样本xl, 并结合其第k个特征通道的空间位置坐标(i,j)。 此外, 在时间步长t上定义网络变量O^l_{ijk}。 基于上述定义, 其表达式可简记为Eq1(1)。

在这里插入图片描述

在这一场景中,x^{f(i,j)}_{l}(t)x^{r(i,j)}_{l}(t-1)分别对应于标准卷 convolutional layer 和第 l 层 RCL 的输入特征。其中,w^f_{k}w^r_{k} 分别表示标准卷 convolutional layer 和第 k 个特征映射所对应的 RCL 权重参数,而 b_{k} 则是该层的偏置项。

在这里插入图片描述

在等式 (2) 中, 激活函数 f 被选定为典型线性整流单元 (ReLU) 模块. 为了深入研究其性能表现, 我们进一步通过实验探索了指数线性单位 (ELU) 激活函数的应用效果. 对于不同尺寸的空间卷积核与平均池化层, 其基底单元输出 y 被分别定义为单点卷积核输出、三阶卷积核输出以及加性池化后的单点卷积核特征. 初始循环卷积神经网络 (IRCNN) 单元的基本计算过程则可被表示为公式 (3) 所示。

在这里插入图片描述

在当前模块中,在通道或特征图层面进行了一系列的操作以实现信息传递路径的设计。随后,在IRCCNN单元的基础上构建了IRRCNN块,并在此过程中实现了跨层级特征融合的效果。通过公式(4)来描述这一过程的优势在于能够有效减少计算复杂度的同时保持模型性能不受明显影响

在这里插入图片描述

在等式(4)中,变量x_{l+1}代表紧随其后的下一个转换模块的输入。另一方面,在等式(4)中定义了变量x_l来描述每个IRRCNN模块内部所使用的输入样本。同时,在等式(4)中引入了权重参数w_l来描述每个IRRCNN模块所使用的卷积核权重,并与对应的输入样本x_l"一起构成IRCNN单元第l层"的工作机制。值得注意的是,在残差单元中...批标准化技术应用于该模块以提高训练效率和模型稳定性。经过上述处理后...将被传递给后续阶段

根据模型中转换单元的位置设置,在转换单元中执行卷积、池化以及dropout等不同操作。初始单元被包含在转换单元内部。在转换单元内执行下采样操作,在其中应用3×3图像块和2×2步长的最大池化操作。非重叠最大池化不利于模型正则化;因此我们采用了重叠采样最大池化的策略来规范网络结构。后续应用的池化层有助于增加网络中的特征非线性。在此实现了两种特殊的池化结构。

在NiN [26]与Squeeze Net [27]所受影响的基础之上,在本实现过程中我们仅采用了1×1及3×3尺寸的卷积核。

在这里插入图片描述

在多个基准数据集上进行了一系列实验,并对比分析了几种现有模型的性能

在卷积块中通过不同数量的卷积层对IRRCNN模型进行评估,并根据时间步长t来确定各层深度。其中t=2表示在该步骤之后添加了两个RCT-RCL模块[20]。对于用于乳腺癌识别的两个数据集,在每个数据集中我们采用了具有初始两个卷积层的模型架构:四个IRCNN块连接在一起,并依次接续过渡块和全连接层以及末尾的softmax分类器。为了探索模型性能与特征图数量的关系,在前三个卷积层分别采用了32、64和128个特征图;而对于第四个IRCNN块则增加了更多细节:具体而言,在第一个至第四个IRRCNN块中分别使用了128、256、512和1024个特征图以提升表示能力。此外,在每个IRCNN模块中均接入了批归一化(BN)操作[25]以加速训练过程并提高稳定性。整个网络参数规模达到约930万参数量级。

Experimental Results and Discussion

Experimental Setup

为了验证IRRCNN模型的性能,在两个独立的乳腺癌数据集上进行了评估:BreakHis数据库以及2015年乳腺癌分类挑战数据库(BCCT)。这两个数据库分别用于二元分类和多元分类任务的研究,并对其中的数据进行了详细讨论。在模型实现方面,我们采用了Keras框架(参考地址:https://github.com/keras-team/keras.git)与TensorFlow平台(参考文献[28]),该系统运行在配备56GB内存及NVIDIA GEFORCE GTX-980 Ti显卡的单GPU设备上进行开发。为确保分析的一致性,在处理病理图像时遵循了多个标准:首先,在大多数情况下,默认使用全视野数字图像切片(Whole Slide Image, WSI),其尺寸通常大于常规数字图像大小;其次,在某些特殊样本中可能会采用更大的分辨率获取病理切片;此外,在这种情况下输入样本会被划分为多个小块(tiles)并送入模型进行处理。针对补丁选取的方法主要有两种:第一种是随机裁剪策略,在此方法中从输入样本中随机选取位置截取补丁;第二种则是系统化的方法选取顺序排列且互不重叠的补块作为输入特征图层

Datasets

BreakHis

本研究采用了开放获取的BreakHis数据集进行乳腺癌图像分类任务的研究。该数据集包含来自82名不同患者的7909份乳腺组织样本,在放大倍数方面涵盖了从×40到×400的范围。图3展示了部分具有×400倍放大系数的典型图像样本。每个类别都分为四个子类型:腺病(A)、纤维腺瘤(F)、管状腺瘤(TA)以及叶状肿瘤(PT)。对于恶性肿瘤类别,则分为导管癌(DC)、小叶癌(LC)、粘液癌(MC)以及乳头状癌(PC)四种类型。表1详细列出了该数据集的各项统计数据。在实验设计中,我们采用了70%的数据用于模型训练,并将剩余30%作为独立测试集进行评估[8,12,18]。为了防止模型在测试阶段出现过拟合现象,在测试过程中排除了所有曾参与过训练阶段患者的样本数据[12,18]。经过五次独立实验的成功验证后,在文献[12,18]的基础上计算并报告了平均分类准确度

在这里插入图片描述

采用多样化的数据增强技术(如旋转、翻转等),从每个单个输入样本生成了额外的21个样本来提升模型泛化能力。这导致总样本数量增加到原来的21倍以上。在放大率为4.5的情况下,在线可用图像总数已达到新高——目前总计达4.5万张。我们成功生成了来自原始数据集的不同放大版本:分别对应于×1.5x、×3x和×6x的比例因子。通过这些方法处理的数据集总量达到了约9万张左右,并在此基础上进行了进一步优化与验证工作以确保效果的一致性和稳定性

BC Classification Challenge 2015

该研究采用分辨率高达2048×1536的数字化病理切片作为基础数据集,在乳腺癌诊断与治疗领域具有重要应用价值[17, 29]. 本研究共收集了249份样本数据,在其中229份用于模型训练,并将剩余样本留作后续验证分析. 所有切片由经培训的专业病理学家进行分级标记,并在未指定具体感兴趣区域的情况下进行整体观察. 每个切片被归入以下四个类别:正常组织、良性的(包括原位和浸润性癌). 如图4所示展示了不同类型的乳腺癌切片样本分布情况. 各类约有60份样本数据,在分类任务中有效缓解了类别不平衡的问题.

在这里插入图片描述

在该实现中,针对二分类和多分类的乳腺癌分类问题评估模型。在二分类的情况下,正常组织和良性亚群被认为是第一类,原位癌和浸润性癌亚群被认为是第二类的一部分。根据数据集的视觉分析,观察到核半径范围为3至11个像素(或1.26至4.62μm)。因此,尺寸为128×128像素的图像块能够覆盖足够的组织结构(根据[17]中的实验)。我们使用图像方式和图像块方式评估进行了实验。对于图像分类,我们使用了三种不同的方法:首先,我们将输入样本的大小调整为128×128像素,这显着降低了样本中包含的信息。其次,将不同的数据增强技术应用于调整大小的图像,为每个样本生成20个不同的增强样本。第三,裁剪200个随机图像块以创建用于训练和测试模型的图像块数据库。使用Winner Take All(WTA)方法生成结果,其中最终类是基于提名最大补丁数的类确定的。图像块的标签被认为与原始图像具有相同的类别标签。另一方面,使用图像块的方法,首先,从原始输入样本裁剪128×128像素的图像块中心。其次,将增强技术应用于图像(每个样本生成20个增强样本),并从增强样本中剪切中心斑块。第三,我们使用200个随机选择的图像块评估模型,其中单个图像的尺寸为128×128像素。表2给出了图像方式和图像块方式的统计数据。

Data Augmentation

对于每个数据集而言,在其中我们采用了多种数据增强手段。这些手段包括如顺时针旋转40度等技术:宽度偏移系数、高度偏移系数及剪切系数均为0.2;变焦范围设定为0.2;同时进行了水平翻转与垂直翻转操作。

在这里插入图片描述
在这里插入图片描述

Training Methodology(训练方法)

在第一个实验中,我们采用了随机梯度下降(SGD)作为优化函数来训练IRRCNN架构,并进行了总共150个时期的训练。至第50个周期后,学习率被降低至原来的十分之一。我们配置了动量参数为0.9,并依据初始学习率以及训练周期的数量动态调整衰减因子。

Results and Discussion

在本研究中,我们开发了一种新的自动乳腺癌分类方法,并将其应用于两个不同的数据集上的二分类和多分类问题。在针对多分类乳腺癌问题时,该方案考虑了四个及八个类别。通过该研究方法,在两个数据集上获得了当前最先进的测试精度。

Results for BreakHis

根据文献[12,18]的研究成果,在评估IRRCNN模型性能方面提出了两个关键标准的基础上

在这里插入图片描述

全局患者识别率(Prt)在等式(7)中定义。

在这里插入图片描述

我们还对IRRCNN方法在图像级别的分类任务中的性能进行了评估。 在实验过程中,我们将可用于测试的样本总量被定义为NT。 正确分化的组织病理学案例则被指定为NCCT。 通过公式(8), 我们成功地表达了图像级识别率(Irt)这一概念。

在这里插入图片描述

基于IRRCNN算法构建的乳腺癌分类模型在训练与验证阶段均取得了良好的准确度(如图7所示)。通过分析图像数据可以看出,在乳腺癌分类任务中放大系数的变化会影响模型在训练集与测试集上的表现。通过实验发现,在乳腺癌数据集上采用1×100倍放大的策略能够显著提升模型在测试集上的准确率;而当放大倍数达到1×200时,其在测试集上的表现几乎与最佳配置持平。

在这里插入图片描述

乳腺癌的多类别与二类别具体数值体现在表3与表4中。这些表格通过BreakHis数据集对比使用与否的数据增强,在从图像级别的角度以及患者级别的角度进行分析。

在这里插入图片描述
在这里插入图片描述

在此基础上,在文献[15]中采用了多种融合技术(如总和、乘积及最大值等)对乳腺癌识别性能进行了评估。由此可见,在比较方面我们的方法与文献[15]中报道的最佳准确度相媲美。通过对比发现,在现有文献如[8、15、18]中的深度学习方法基础上我们的IRRCNN方法表现更为出色。图8展示了不同放大因子下我们提出的IRRCNN模型对应的ROC曲线下的面积。

在这里插入图片描述

Results for BC Classification Challenge 2015

基于2015年的乳腺癌分类挑战数据集, 各方法在训练与验证阶段的表现分别体现在图9a和图9b中. 通过调整样本大小及实施数据增强技术所得出的结果表明, 在训练与验证环节上均取得了最佳表现, 具体结果可见于图9.

在这里插入图片描述

Patch-Wise分类结果 表5和表6呈现了基于图像块的不同方法的实验数据。结果显示,在二分类与多分类场景中,通过增强中心图像块能够实现最高测试准确率为97.51%及97.11%的结果。

在这里插入图片描述

在随机选取的图像块上进行测试显示性能相近;然而,在单中心图像块实验中发现其表现略逊一筹;其中二分类任务的表现达到88.7%,而多分类任务的表现则达到88.12%。

基于图像级别的分类性能分析表明

在这里插入图片描述
在这里插入图片描述

除了评估基于图像的性能外,在这些研究中还采用了以下步骤:首先从四个互斥类别(每个类别包含5个样本)中分离出总共20个随机样本;然后从包含229个独立样本的数据集中随机选择每个样本包含200个图像块来训练模型;对这20个独立验证集中的每一个(每个包含200个图像块)进行了验证和测试;最后将WTA算法应用到模型生成的结果上;通过采用WTA算法,在二分类和多分类乳腺癌识别任务中实现了100%的测试准确度。

Analysis and Comparison of Results(结果分析和比较)

BreakHis Dataset

或者,在这项工作中,我们为图像级和患者级良恶性乳腺癌分类获得了97.95±1.07%及97.65±1.20%的测试准确度。基于[18]中图像级与患者水平分析报告所记载的最大准确性,在平均性能方面我们的研究取得了较优性能提升表现——分别为1.05%及0.55%的增长幅度。此外,在多级乳腺癌分类任务中,我们提出的新方法IRRCNN模型分别在图像级上达成了97.57±0.89%、以及患者级上的96.84±1.13%测试准确度指标。相较于最新报告中的性能数据而言,在识别精度方面我们的结果表现出了显著的优势——分别高出约3.67%及2.14% [18]。

BC Classification Challenge Dataset 2015

在2014年,Crus-Roa及其团队开发了一种基于卷积神经网络(CNN)的图像处理分类方法,他们通过该方法在特定数据集上的敏感性测试中获得了79.6%的结果[30]。随后,他们在2017年针对同一数据集中的不同亚类型的乳腺癌进行了最高准确度评估,并分别探讨了乳腺癌的二分类与多分类问题。由于图像的空间维度非常高(2040×1536像素),研究者对乳腺癌的二分类与多分类进行了图像级别的分析以及更高层次的块级分析。采用CNN模型,他们实现了在图像级别的四分类测试精度为77.8%与二分类测试精度为83.3%的最佳结果[17]。相比之下,我们采用IRRCNN模型进行了一系列实验,重点考察了包括缩放、裁剪、随机选取图像块以及多种数据增强技术在内的多个关键指标。对于经过缩放与增强的数据样本,我们分别实现了二分类99.05%与多分类98.59%的高度测试精度。此外,我们将所开发的分类模型应用于随机选取的不同区域样本上,并结合Winner Take All方法整合各区域预测结果以生成最终结论;这一实验方案实现了对所有测试样本达到完美的识别效果(即100%的测试性能)。由此可见,我们提出的方法在2015年的乳腺癌挑战赛基准数据集上显著提升了双分位点及多类别乳腺癌识别的表现[9].表9详细列出了各项实验的具体计算时间参数。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zRrfono2-1575438189409)(media/15660063471450/15680175551641.jpg)]

在这里插入图片描述

Conclusion

在本文中,我们提出了使用初始残差循环神经网络(IRRCNN)模型对乳腺癌的二分类和多分类识别方法。使用IRRCNN模型在两个不同的基准数据集(BreakHis和2015年乳腺癌分类挑战)上进行实验,并使用不同的性能指标评估性能。通过图像级别,患者级别,基于图像和基于图像块的分析来评估所提出方法的性能。我们已经考虑了不同的标准,例如放大系数,调整大小的样本输入,增强的图像块和样本,以及此实现中基于图像块的分类。对于截至2016年的科学报告中发布的所有结果,所提出的方法在BreakHis数据集的平均识别准确度提高了约3.67%和2.14%。此外,该方法在2015年乳腺癌分类挑战数据集上对于二分类达到了99.05%的测试准确度,对于多分类达到了98.59%的测试准确度,这明显高于其他任何基于CNN方法基于图像和基于图像块的识别性能的方法。我们还使用随机图像块和Winner Take All(WTA)方法评估了所提方法的性能,以实现基于图像的识别,并实现了100%的测试精度。因此,与两种数据集的现有方法相比,实验结果显示了乳腺癌识别的最新测试准确度。

全部评论 (0)

还没有任何评论哟~