Destruction and Construction Learning for Fine-grained Image Recognition
Destruction-Construction Learning (DC-Learning) for FGR(Fine-Grained Recognition)
abstract
本文探讨了一种名为DCL(破坏与构件的学习)的创新方法,并将其定义为一种细粒度特征的破坏性重构技术。通过引入该方法能够显著提升细粒度识别的难度,并帮助模型系统性地学习专业知识。研究发现,在训练过程中该方法无需额外知识投入,在预测阶段仅需搭配标准分类网络即可实现高效运行。
1. Introduction
细粒度分析领域受到广泛关注。目前研究细粒度主要采用两种策略:第一类方法首先定位鉴別对象的关键部分,随后基于鉴別区域执行分類工作;这些分步策略通常要求在对象或部件上附加外围框标注(outer-bounding-box annotation),其带来的标注开销显著增加。第二类方法则尝试利用注意力机制实现无监督的区域定位过程,在此过程中无需额外标注信息但需承担更高计算复杂度。
鉴于此

2. Related works
就介绍了细粒度识别的方法,框架啥的。。
3. Proposed Method

3.1. Destruction Learning
3.1.1 Region Confusion Mechanism打乱机制
首先导入一张图像并命名为I;随后将该图像划分为N×N个子区域;最后将这些子区域统称为分块

难以继续阅读的文章。此图供阅读的博主提供了详细的分析与见解。

其含义是即使进行调整也不会毫无章法地进行;而是通过算法实现对周边元素的精细调控。
初始图像

,破坏后的图像

,以及其相对应的一对多标签

(细粒度类别),组合为

用于训练模型。分类网络将输入图像映射为一个概率分布向量

, 其中

表示分类网络中所有可学习的参数。分类网络的损失函数为:
3.1.2Adversarial Learning
由于对图像进行RCM去噪处理后会产生一定程度的噪声,在此背景下通过引入对抗学习算法可以有效减少残留误差幅度
对抗学习的目的在于(1)维持原始图像与损坏图像在相同领域的一致性;(2)避免原始图像与损坏图像在不同领域的差异。
通过对抗网络对判别器进行训练,在无法区分原始图像与经破坏后的图像之间的差异的情况下(即),对抗网络实际上是在学习并提取出这两类图像的共同特征特性。这一过程确实令人较为复杂,并且能够有效降低由于RCM机制所导致的图像噪声干扰程度。

3.2. Construction Learning
基于图像中相关区域的组合构成了复杂的视觉模式这一前提下
具体看不下去。。
该方法能促进图像中主要目标的定位,并能揭示子区域之间的关联性。在端到端训练过程中,在分类骨干网中以区域构造损失为基础可帮助深入理解物体特征,并建模其形状、局部语义关联等结构信息。
不想搞了。。。
