6.Learning from Web Data with Self-Organizing Memory Module论文阅读
上海交通大学在CVPR 2020上发表了一篇关于图像分类的论文
开发了一种自组织记忆网络模型,在带有记忆模块的多实例学习框架下具备同时处理Web数据标签和背景噪声的能力,并不需要依赖人类注释或额外的小批量干净数据。
基于自组织记忆模块 的构建实现了对训练过程及结果的优化,并通过多组基准数据集的实验验证了该方法在网络图像分类器学习中的有效性。
看完的一篇较为基础的论文整体感觉没有什么重大的创新点归因于自身学识水平有限。
文章目录
-
Abstract
- 引言部分
- 相关工作分析
- 2.1 网络监督学习方法及其应用探讨
- 2.2 记忆网络技术及其发展现状
- 2.3 多实例学习算法的设计与优化策略
-
3. 方法论
-
-
3.1. 概述我们的方法
-
3.2. 基于多实例的学习框架
-
3.3. 自适应记忆机制模块
- ③.1. 内存模块结构设计:
- ③.2. 内存模块更新机制:
- ③.3. 自组织图灵扩展方案:
- ③.1. 内存模块结构设计:
-
3.4. ROI Selection Based on Memory Module
-
3.5. Training Algorithm(训练算法)
-
-
-
- Experimental Studies
-
4.1. Data Sets
-
4.2. Implementation Plan
-
4.3. Qualitative Evaluations
-
4.4. Ablation Analysis
-
4.5. State-of-the-Art Comparison
-
5.Conclusion
Abstract
近年来,在网络数据中学习成为一个备受关注的研究方向。然而,在抓取的网页图像中通常会存在两种类型的噪声:标签噪声和背景噪声。这些类型带来的挑战使得合理利用这些数据变得异常困难。传统的机器学习方法往往依赖于人工干预进行监督学习,并不能有效地应对复杂场景中的背景干扰问题。在此研究中,我们提出了一种 novel 方法框架,在多实例学习框架内实现了对两种典型噪声的有效抑制机制设计。我们的核心创新点在于无需在训练阶段预先获取干净样本的前提下完成这一任务。为此我们设计了一种基于聚类分析的自适应权重分配策略,并将其与专门设计的数据存储模块相结合形成了一个端到端可训练的学习系统架构
1.Introduction
深度学习是一种数据-intensive的方法,在实际应用中需要大量高质量标注的训练样本。然而获取高质量标注图像的过程通常是昂贵、耗时且费力的。幸运的是由于互联网上可获取的数据来源广泛因此从网络中采集图像成为一种可行的选择。然而网页数据存在两个显著的问题:标签噪声与背景噪声。其中标签噪声是指被错误标注的数据实例例如当使用类别名称作为关键字搜索网络结果时可能出现与预期不符的情况。相比之下标准数据集较为干净而网页数据则因内容复杂导致更大的背景噪声具体而言在像Cifar-10这样的手动标注数据集中每个类别的目标对象通常位于画面中央占据较大区域从而产生较少的背景干扰然而在真实世界中的网页图像中背景或无关对象往往占据画面绝大部分区域如图1所示左图中的"狗"被误判为带狗粮的现象属于典型的标签噪声情况右图中草地占据了主要画面区域这种现象则属于更为严重的背景噪声问题

已经有许多关于使用网络图像学习分类器的研究[33,23,36,46,52,16,31,32,34]。然而,他们中的大多数[53,24,13,33,23,28,19]只关注标签噪声。相比之下,最近的一些作品开始考虑背景噪声。特别是庄等人[60]使用注意图来抑制背景噪声,但是这种方法没有充分利用不同区域之间的关系,这可能限制其去除噪声区域的能力。Sun等人[46]利用弱监督区域建议网络(weakly supervised region proposal network)从网页图像中提取干净的区域建议(to distill clean region proposals ),但是这种方法在训练阶段需要额外的干净图像。
在这项工作中,我们提出了一种新的方法,以解决标签噪声和背景噪声同时进行,而不使用人类注释。我们首先使用无监督的建议提取方法(unsupervised proposal extraction method)[61]来捕获可能包含有意义对象的图像区域。在本文的主要部分,我们使用了“ROI”来表示图像及其候选区域。根据多实例学习的思想,来自同一类别的感兴趣区域被分组到包中,每个包中的感兴趣区域被称为实例。基于每个包中至少有一定比例的干净感兴趣区域的假设,我们倾向于为不同的感兴趣区域学习不同的权重,较低的权重表示有噪声的感兴趣区域,通过这种方式可以减轻标签/背景噪声。利用感兴趣区域权重,我们可以使用每个包中感兴趣区域级别特征的加权平均值作为包级别特征,它们比感兴趣区域级别特征更干净,因此更适合于训练鲁棒的分类器。
为了充分利用不同感兴趣区域之间的关系,我们倾向于通过将感兴趣区域与原型(prototypes)进行比较来学习感兴趣区域权重,而不是像[17,60]那样通过自我关注来学习权重,原型是通过聚类包级特征(clustering bag-level features)获得的。每个集群中心(即原型)都有一个代表的得分,这意味着这个聚类中心是如何代表每一个种类的。(Each cluster center (i.e., prototype) has a represen-tative (resp., discriminative) score for each category, which means how this cluster center is representative (resp., dis-criminative) for each category。)然后,每个感兴趣区域的权重可以基于其对应类别的最近聚类中心来计算。虽然原型的思想已经在许多领域被研究过,例如半监督学习[6]和少镜头学习[43],但是它们通常在每个类别内对样本进行聚类,而我们对来自所有类别的包级特征进行聚类以捕捉跨类别的关系。
传统的聚类方法,如K-means,可以用来聚类包级特征(bag-level features)。然而,我们使用最近提出的键值存储模块[29](key-value memory module)来实现这个目标,它更强大、更灵活。Memory module可以与分类模块集成,产生端到端的可训练系统。此外,它可以同时在线存储和更新聚类中心的特定类别代表/区分分数。作为一个小小的贡献,我们采用了自组织图[48]( Self-Organizing Map)的思想来改进现有的记忆模块,以稳定训练过程。
我们的贡献可以概括为:1)主要贡献是在带有记忆模块的多实例学习框架下处理web数据的标签/背景噪声;2)次要贡献是提出自组织记忆模块,稳定训练过程和结果;3)在几个基准数据集上的实验证明了该方法在网络图像分类器学习中的有效性。
2.Related Work
2.1.Webly Supervised Learning(网络监督学习)
42 7 8 30 53 24 33 23 28 12 39 14
2.2.Memory Networks(记忆网络)
29
29
Memory networks作为一种新兴方法,在解决实际问题方面展现出显著成效【18,45,29
18-6
2.3.Multi-Instance Learning
在多实例学习(MIL)中,将多个实例组织成一个包进行处理,并要求其中至少有一个正实例能够触发生成相应的包级标签。MIL的核心目标是开发一种健壮的有效分类器,在无需预先标记所有未知实例的情况下完成分类任务。早期的研究[2,27]曾将整个包视为一个整体单位来进行处理,并基于此推断每个包内各个实例的具体标签信息。随着深度学习技术的发展[37,59,11]已经研究并提出了多种池化操作方法,在这些方法中平均池和最大池是最常用的两种类型。与固定参数的池化操作不同的是[35,17,22,51]研究表明可训练的操作符能够分配不同权重给各个独立的实例特征点。通过引入注意力机制的概念Pappas和PopescuBelis [35]提出了一种基于注意力机制的多元线性回归模型这种模型中的注意力权重是在辅助线性回归模型中进行优化配置的以提高预测效果的同时还能更好地捕捉各特征点之间的关联关系。在此基础上AD-MIL [17]进一步创新性地提出了门控注意力机制来增强排列不变性的聚合算子设计以期实现更好的性能提升。
在MIL框架下我们采用了记忆模块来进行每个包内各个特征点重要性的自动学习这一探索性的工作此前并未有相关研究涉及。
3. Methodology
在本文中,我们采用了黑体标记法来区分不同大小写的字母符号用于代表矩阵与向量(其中A代表矩阵、a代表向量)。具体而言,在讨论矩阵时,默认情况下下标i将被用来指代该矩阵中具体的某一行或某一列的位置信息。例如,在这种情况下,“a_{ij}”将被用来描述位于该矩阵中第i行、第j列的位置上的元素值。此外,在讨论线性变换时,“A^T”被用来表示其转置矩阵,并采用点积运算符(记为:)来描述两个相应维度上的元素乘积关系。
3.1. Overview of Our Method
该流程图展示于图2中。首先, 采用无监督学习的方法EdgeBox提取图像中的候选区域(region proposals)[61]。通过调节EdgeBox模型中的关键参数设置, 我们期望所提取的候选区域能够充分覆盖主要对象, 并尽量避免遗漏关键细节(如第4.2节所述)。将同一类别下的感兴趣区域(i.e., images and their proposals)归入同一训练包中, 在此过程中, 每个包内的所有感兴趣区域均被视为独立实例。为了对训练包内的不同感兴趣区域赋予不同的权重值, 在此过程中我们计算每个感兴趣区域与存储模块中最邻近的关键字之间的相似度。随后计算各袋级特征并将其作为分类器更新的基础之一返回给存储模块进行迭代优化。

3.2. Multi-Instance Learning Framework
我们在多实例学习框架下构建我们的方法。特别是,我们将几个相同类别的图像和它们的区域建议分组到一个包中,这样每个包都有多个实例(即,感兴趣区域)。我们的目标是为干净的感兴趣区域分配更高的权重,并使用每个包中感兴趣区域级别特征的加权平均值作为包级别特征,这应该比感兴趣区域级别特征更干净。
形式上我们用S表示多个训练包的训练集,B\inS表示单个训练包。请注意,我们在每个包中使用相同数量的n_g个图像,并为每个图像生成相同数量的n_b=n_g(n_p+1)个region proposals ,从而在每个包中产生相同数量的的ROIs。具体来说,B=\{X_i|i=1,2,{\cdots},n_b\}表示包中有n_b个ROIs,其中x_i{\in}R^d是第i个ROI的d-dim特征向量。我们用w(x_i)表示x_i的权重,\sum_{x_i{\in}B} {w(x_i)}=1.如图2所示,感兴趣区域的特征是从CNN模型中最后一个卷积层的特征图上的相应区域汇集(are pooled )而来的,类似于[40]。
给定一个分类标签为y{\in}{[1,2,3,\cdots,C]}的包,用C代表总类别数,我们也可以用只有第y个元素为1的C-dim one-hot vector y 来表示它的包标签。在给每个x_i分配权重w(x_i)后,我们使用每个包中的感兴趣区域特征的加权平均值作为包级特征:\bar{x}={\sum_{{x_i}{\in}B}w(x_i)\cdot{x_i}}\in{R^d}。我们的分类模块基于具有交叉熵损失的包级特征:
L_{cls}=-\sum_{B\in{S}}y^Tlog(f\sum_{x_i\in{B}}w(x_i)\cdot{x_i}), (1)
其中f(\cdot)是softmax分类层。在初始化步骤中,region proposals的权重都被设置为零,而图像在每个包中被分配相同的权重。我们用\bar{w}(x_i)来表示这种初始化的感兴趣区域权重。在初始化CNN模型后,我们倾向于通过memory module为感兴趣区域学习不同的权重。接下来,我们首先介绍我们的memory module,然后描述如何基于我们的memory module为感兴趣区域分配权重。
3.3. Self-Organizing Memory Module
我们的记忆模块的主要功能是对包级特征进行聚类操作。每个聚类中心都可以等价于一个典型的模式[42, 7, 8, 6, 43]。尽管传统的聚类方法如K-means算法能够模仿传统方法的功能特性,并且具有一定的实用性与适用性特点。然而,在实际应用中发现memory module具有更为显著的优势与突出的表现优势:特别之处在于它能够方便地与分类器模块相结合使用,并最终形成一个完整的端到端可训练化系统架构;值得注意的是该系统不仅具备强大的数据存储能力以及动态更新能力(即每个聚类中心都对应着一种特定类别识别能力)。
3.3.1 Memory Module Architecture:
我们的内存模块由键槽与值槽构成。每个键槽均包含一个聚类中心,并对应一个l-th键槽(l为1到L之间的整数),其中l-th键槽代表第l个聚类中心的具体表现分数。
3.3.2 Memory Module Updating:
在随机初始化所有键和值槽的情况下,在这种情况下它们基于来自第c类的训练包B中的包级特征及其one-hot label向量y进行更新。随后确定x所属的集群这一集群也被称为\bar{x}的一个‘赢家键槽’。具体来说我们计算x与每个键之间的余弦相似度即cos(\bar{x},k_l)=\frac{k_l^T}{{\lVert{k_l}\rVert_2}{\lVert{\bar{x}}\rVert}_2}其中对于l=1到L的所有情况取最大的余弦相似度值对应的赢家键槽。

当样本点\bar{x}被归为第z个簇时,在此之后需要根据样本点\bar{x}来重新计算聚类中心的位置k_z。相较于以往的方法[[58]中所采用的技术路径而言,则是通过计算梯度向量来进行参数优化的方式更为高效和直观:我们采用了另一个简洁而功能上相匹配的成本函数:

这可以使赢家聚类中心k_z靠近\bar{x}
基于相同的损失函数设计原则,则随之更新相应的d值槽和r值槽。
对于d值槽D来说,我们希望d_{y,l}能够近似等于\tilde{d}_{y,l},这表明,在第I类包中包含有类别Y的占比。
接着,D矩阵中第z列则可以表示属于z-th集群的类别分布情况,因此则需要采用标签向量Y进行更新。


L_{d-value}能够引导d_z更接近目标y,并借助(5)式维持其有效分布。因此,经过处理后得到的d_{y,z}将趋近于\tilde{d}_{y,z}。
针对r-value slots R, 回忆一下, 我们预期r_{y,i}将接近\tilde{r}_{y,i},其含义是第i个簇中的包占第y类包的比例. 接着,r_y即R中对应于第y行的部分,能够反映来自所有集群中第y类的所有包的整体分布情况. 因此我们需要利用\bar{x}的一热编码簇指示向量z(仅其中z位置为1)来更新r_y,如上所述:


类似于d_z,
L_{r-value}能够引导r_ytowards z
并且利用式(7)维持其有效性
从而使得r_{y,z}最终近似于\tilde{r}_{y,z}
它们的理论基础及其详细讨论在附录中提供
3.3.3 Self-Organizing Map (SOM) Extension:
一个理想的聚类算法旨在对初始化不敏感并生成平衡化的聚类结果

其中\eta(k_z, k_i) = (1 + \text{geo}(k_z, k_i))^{-1}被指定为分配给k_i的一个权重值;其与k_z与其测地距离呈负相关关系(进一步的技术细节可参阅补充内容)。总的来说,在计算我们所关注的目标函数时:

3.4. ROI Selection Based on Memory Module
基于记忆模块(memory module),我们可以为每个包中的不同感兴趣区域分配不同的权重。具体来说,给定一个带有包标签y的感兴趣区域x,我们首先寻找它的winner key slot k_z,并获得k_z对于y-th category的区别分数,即d_{y,z}(resp.,r_{y,z})。对于一个干净的ROI,我们希望它的winner key是既有区别又有代表性的类别。为了便于描述,我们用s_{y,z}=d_{y,z}\cdot{r_{y,z}}定义了S=D{\circ}R。我们将s_{y,z}作为第y类k_z的原型分数。因此,原型分数越高的ROI越容易成为干净的ROI。
除了原型分数之外,我们还通过考虑ROI区域提出了另一个折扣因素(discount factor)。直观上,我们推测较小的感兴趣区域不太可能有有意义的内容,因此应该受到惩罚。因此,我们使用面积分数(a-score)\sigma(\cdot)来描述每个ROI的相对大小。回想一下,每个包中有两种类型的感兴趣区域:image and region proposal。对于原始图像image,我们设置σ(x) = 1。对于 region proposal,我们将σ(x)计算为region proposal x的面积与同一图像中所有region proposal(不包括完整图像)中的最大的面积之比。为此,我们使用a-score σ(x) to discount s_{y,z},得到x的新权重:

基于(10)计算得出各感兴趣区域的权重后,在每个包内仅保留对应的最大P值(例如10%)的权重,并将剩余的其他位置设为零值。随后对每个包内的ROI(Region of Interest)权重进行归一化处理,使它们的总和等于1
3.5. Training Algorithm(训练算法)
为了更清晰地表达我们的意图,
其中\theta_{cnn}被用来表示CNN模型的参数,
同时\theta_{mem}则用于表示memory module中的{K, D, R}。

在第3.2节的基础上

为了期获得更好的成绩,我们应用了课程学习(curriculum learning)这一理念[56]。建议在训练模型时从干净或简单的训练样本入手,并进行良好的初始化工作;随后逐步引入含噪或难度较高的训练样本以提高模型泛化能力。计算后的ROI权重中;每个包中得分最高的ROI相较于得分较低的应更为干净;因此我们将其设为阈值参数以筛选出每个包中具有噪声特征的ROIs。遵循课程学习的思想指导;我们初始将p设为较小值以便选择出来的ROI在鉴别性和代表性上具有较高的水平;随后逐步增加p以增强后续模型泛化能力;整个算法流程如算法1所示。
为了评估我们的方法;我们直接采用经过充分训练的CNN模型基于图像级特征对测试图像进行分类;而不提取区域提案(region proposals)。记忆模块仅用于处理训练阶段的数据去噪;而不参与测试阶段的操作。
4. Experiments
在这一节中,我们介绍了实验设置,并演示了我们提出的方法的性能。
4.1. Datasets
该数据集(Clothing1M)基于网络监督学习概念,包含了约一百万张来自互联网的服装图片。其中约有一百多万张图片是从互联网上获取的。这些图片按类别分为14种类型。大部分图片与其周边文本提取的相关标签关联,并用于构建训练集。其余一些经过人工标注去噪标签的图片则作为干净评估的数据源。
Food-101 & Food-101N:Food-101 dataset [1]是从foodspotting.com收集的大型食物图像数据集。它有101个类别和1k个图像,每个类别都有人类标注的标签。Food-101N是[24]提供的网络数据集。它从几个网站(不包括foodspotting.com)上抓取了310k张Food101中相同分类的图片。在我们的实验中,我们使用Food-101N进行训练,使用Food-101进行评估。
Webvision & ILSVRC:该网络视觉数据集[26]由训练集合、验证集合与测试集合构成。其中训练集合基于ILSVRC-2012 [9]数据集中相同的1千个语义概念从Flickr及Google平台采集,并包含了标注了噪声标签的数据共约二百四十万张。而验证集合与测试集合则均经过人工标注完成。在本研究中我们采用了该网络视觉训练集合进行模型训练工作但随后对其中的网络视觉验证集合(共5万样本)以及ILSVRC-2012验证集合(同样为5万样本)进行了性能评估
4.2. Implementation Details
我们采用ResNet50 [15]作为CNN模型,利用其最后一个卷积层的输出作为特征图提取ROI特征。对于Clothing1M and Food101N,我们使用在ImageNet上根据以前的作品预处理的ResNet50,[24,13]。对于WebVision and ImageNet,ResNet50是用WebVision中的web训练图像从头开始训练的。
对于建议提取器(即Edge Boxes),有两个重要的参数MaxBox和MinBoxArea,其中MaxBox控制返回region proposals 的最大数量,MinBoxArea确定最小区域。在我们的实验中,我们使用MaxBoxes = 20(即n_p=20)和MinBoxArea = 5000。默认情况下,我们在每个训练包中使用两个图像(即n_g=2,因此每个包中的ROIs数量是n_b=n_g(n_p+1)=2\times(20+1)=42。
4.3. Qualitative Analyses
在本节中,我们进行了定性分析以阐述我们的方法的工作原理。随后探讨了记忆模块(Memory Module)及其相关的训练包(Training Bags)。Memory Module:基于Clothing1M数据集作为示例,在图3中展示了三个关键槽位及其对应的d分数和r分数。通过计算每个关键槽位与相关区域的余弦相似度值cos(x_i,k_l)来确定其重要性指标。从饼图可以看出,在该分类任务中第一个关键槽位分别来自“西装”与“风衣”类别组别,并且其d值最低。同时,在该分类任务中的测试集中,“西装”类别的包数量明显少于其他两个关键槽位的平均数量;因此其r分数也相应较低。这种关键槽位对于区分不同服装类别而言既缺乏足够的代表性又无法提供有效的区分能力

另外两个 key slots对“suit”类别有很大的区别(discriminative),并且有很高的d分。但第三个 key slot比第二个更能代表“suit”,导致r分更高。解释是彩色套装(第二个 key slot)的包总数小于黑色/灰色套装(第三个 key slot)的包总数,所以我们声称第三个 key slot比“suit”更有代表性。结合r-score和d-score,我们可以说第三个 key slot是“suit”最典型的(参见附录中所有L = 144个 key slot的可视化)。
**Training Bags:**基于 memory module,每个包内的不同感兴趣区域根据其面积和最近key slots的原型分数被分配不同的权重。在图4中,我们展示了一个包含三个图像的训练包(即ng= 3)。通过比较第一列和第二列,我们可以观察到噪声图像和噪声区域建议已经基于学习的感兴趣区域权重被移除。通过对感兴趣区域权重求和,我们可以获得具有更亮颜色的注意力热点图,指示更高的权重。热图及其对应的直方图分别显示在第三和第四列。可以看出,背景区域的权重低于主要对象。因此,图4中的结果展示了我们的网络处理标签噪声和背景噪声的能力。

4.4. Ablation Study
我们首先以Clothing1M数据集为例,在对比表1中的各项统计数据时

The bag size: 如表一所示,我们的方法以n_g=2达到了最好的效果,所以我们在剩下的实验中使用它作为默认参数。此外,可以看出,n_g= 1的性能比n_g> 1的性能差,因为我们的方法在一个包中只有一个图像时,当它是有噪声的图像时,将无法减少标签噪声。
The number of key slots(聚类中心的数目): 如表1所示,当key slots的数量足够大(L ≥ 8 × 8)时,我们的方法的性能相当稳健,而数量太小(L = 4×4)将导致性能下降。请注意,最佳性能是在L = 12 × 12的情况下实现的,而Clothing1M数据集有14个类别,这表明当每个类别可以在memory module中占据大约12×12÷14≈10个聚类中心时,我们的方法通常会获得令人满意的性能。根据这一观察,在其余的实验中, Clothing1M的L = 12×12,food101的L = 32×32,WebVision and ImageNet in the rest experiments.L = 100 × 100。
其次,我们在表2中研究了我们的方法中每个组件的贡献。ResNet50和ResNet50+ROI是两个naive baselines,SOMNet表示我们的方法。ResNet50+ROI同时使用图像和region proposals作为输入,但只比ResNet50稍有改进,这说明单纯使用proposals作为数据增强并不十分有效。

Three types of scores :回想一下,我们使用三种类型的分数来加权ROIs: r分数、d分数和a分数(面积分数)。为了研究它们的益处,我们通过消融每种类型的分数来报告我们的方法的性能,在表2中用SOMNet(w/o d-score)、SOMNet(w/o r-score)和SOMNet(w/o a-score)表示。我们观察到,随着每种分数的缺失,性能将会下降,这表明了我们设计的分数的有效性。
Curriculum learning :请注意,我们利用curriculum learning 的理念,在培训期间将p从10%逐渐增加到40%。在表2中,SOMNet (p = 40%)表示从训练开始直接使用p = 40%的结果,性能下降0.8%。它证明了使用curriculum learning 的有效性。
Background noise removal :我们提出网络数据既有标签噪声,也有背景噪声。为了研究背景噪声的影响,我们只通过不使用region proposals来处理标签噪声,结果由表2中的SOMNet表示。为了公平比较,我们发现在这种情况下n_g= 5,p = 60%是理想的参数,然而,最好的结果只有74.1%,这比使用region proposals要差得多。这个结果证明了处理背景噪声的必要性。

The self-adaptive memory module : Given that conventional clustering techniques, such as the K-means algorithm, can mimic the functionality of a memory module, we opt to employ the K-means method in lieu of our self-organizing memory module and designate this baseline as SOMNet+K-means (see the supplementary details for further elaboration). The performance degradation observed in this configuration underscores the efficacy of integrating our memory module into an end-to-end optimization framework. To validate the utility of incorporating self-organizing maps (SOMs) as an extension, we set the neighborhood size to 1, effectively canceling out the influence of a traditional SOM. Comparisons between SOMNet (without SOM) and SOMNet reveal that incorporating a self-organizing map within our memory module yields favorable outcomes.
4.5. Comparison with the State-of-the-Art
我们将在表3中的最先进state-of-the-art webly或弱监督学习方法在四个基准数据集(Clothing1M、Food101、WebVision和ImageNet)上进行系统性对比分析。其中主要包含Sukhbaatar等人[44]等基线方法。部分现有研究并未在上述四个基准数据集上提供具体实验结果。即使针对这些数据集进行了评估,在不同的实验条件下(例如主干网络配置及训练策略)各研究团队采用了不同的实现方案。因此我们在相同实验条件下重新运行了这些公开实现代码,并在此基础上开展公平性对比分析。对于那些已经在完全相同条件下提供结果的研究团队,则直接采用了其报告的结果(用"∗"标记)。

通过表3的数据可以看出,在主干架构ResNet50上实施的方法取得了明显的提升效果。四个不同数据集计算得出的结果表明, 其平均相对提升幅度达到9.18%. 同时, 该方法的表现优于所有其他基准方案, 证实了我们方法采用内存模块处理标签噪声和背景噪声的有效性
5.Conclusion
开发出一种创新的方法,在Web数据中同时消除标签噪音及背景噪音
本研究得到国家重点研发计划项目的资助。获得了国家自然科学基金面上项目以及上海海专专项的部分资助。
整理不易, 第一次在论文里敲数学公式……对您的支持表示衷心感谢!
