4.Compositional Convolutional Neural Networks 论文阅读
Title: Composed Convolutional Neural Networks: A Deep Architecture Exemplifying Inherent Robustness to Partial Occlusions
Writers: Adam Kortylewski, Ju He, Qing Liu, and Alan Yuille
Conference: CVPR 2020
Authors' Affiliation: Johns Hopkins University
Paper Link: https://ieeexplore.ieee.org/document/9157227
Code Repository: https://github.com/AdamKortylewski/CompositionalNets
Abstract
近期研究表明,在部分遮挡条件下深度卷积神经网络(DCNNs)的表现欠佳(generalization能力有限)。受到合成模型(compositional models)在分类部分遮挡对象方面取得的成功启发,在当前研究中我们提出了一种创新方法:将合成模型(compositional models)与DCNNs整合到一个统一的深度学习架构中。这种新型架构对部分遮挡物具有天然级别的鲁棒性。为此我们将其命名为组合卷积神经网络(Combinatorial Convolutional Networks)。具体而言,在传统DCNN全连接分类头的基础上我们采用了可微分合成模型(differentiable compositional model),这一替代方案使得生成特性得以保留并得到充分利用。生成特性表明该模型能够有效识别并定位遮挡物(occluders),从而能够聚焦于物体非遮挡区域的特征提取。为了验证该方法的有效性,在MS-COCO数据集上进行了人工遮挡图像和带部分遮挡的真实图像分类实验。实验结果发现:即使采用基于数据增强的方法对带遮挡图像进行训练处理后,在标准DCNN架构下仍难以实现可靠的遮挡对象分类性能;而基于我们提出的组合架构则展现出显著的优势——即使在训练过程中未直接暴露于带遮挡的目标信息中也能实现高效的分类效果。进一步实验表明:所提出的组合架构不仅能够准确识别和定位遮挡物(occluders),而且在仅依赖类别标签进行微调的情况下也表现出良好的泛化能力。
1. Introduction
近年来深度卷积神经网络体系结构设计的进步显著提升了计算机视觉系统的图像分类性能[17,22,11]。然而,在研究发现中显示[38,14],与人类相比这种深度模型在识别受人工遮挡物体时表现出明显缺乏鲁棒性特性。此外我们的实验证明dcnns无法实现对部分遮挡目标真实图像的稳健分类效果因此我们研究结论与相关工作成果[38,14]揭示了dcnns在部分遮挡条件下的泛化局限性这一问题亟待解决
一种可行的方法是采用数据增强技术[6,35]但经过强化数据训练后我们发现dcnns在识别部分遮挡对象时依然无法与非遮挡情况下的分类性能相媲美
构成性作为人类认知机制的重要组成部分同样体现在视觉皮层腹流的层次构建上[2,28,9,3]。大量计算机视觉研究证实合成模型(compositional models)能够稳定地实现对部分遮挡二维模式的分类任务[10,13,29,37]。Kortylewski等人提出的基于字典的合成模型(dictionary-based compositional models)是一种基于神经特征激活生成的新颖合成模式架构其相较于dcnns具备更高的鲁棒性特征但在识别未被遮挡物体时仍显现出明显的鉴别能力不足
针对上述挑战我们提出了一种创新性的解决方案即整合合成模型与dcnns构建一个统一深度架构以提升对部分遮挡物体的鲁棒性表现具体而言我们建议将dcnns的传统全连接分类头替换为根据最后一个卷积层神经特征激活生成的一组综合合成层(a compositional layer)。该合成层能够自主定位图像中的遮挡区域并通过聚焦于非遮挡区域来实现对复杂场景图像的稳健分类效果
我们将这种新型整合型深度学习架构命名为组合卷积神经网络(CompositionalNet)。图1展示了该模型在识别受部分遮挡影响物体时展现出的鲁棒性效果并同时实现了对遮挡区域的位置精确定位功能特别地它成功识别并标注了多张被其他物体部分遮挡的汽车图像图中还清晰标示了各被遮挡区域对应的分数值进一步验证了CompositionalNet对该类型场景下复杂背景干扰下的目标识别能力

我们广泛的实验证明,提出的合成网络在分类部分遮挡对象方面比相关方法有很大的优势,即使在训练期间它没有暴露在遮挡对象中。当使用部分遮挡方面的数据增强训练时,性能进一步提高。此外,我们进行了定性和定量实验,证明了合成网精确定位遮挡物的能力,尽管只使用类别标签进行训练。我们在本文中做出了几个重要的贡献:
1.我们提出了一种可微的合成模型(a differentiable compositional model),该模型根据DCNN的特征激活生成。这使得我们可以将合成模型和深度网络整合到组合卷积神经网络中,这是一个统一的深度模型,对部分遮挡具有天生的鲁棒性。
2.虽然之前的工作[37,14,33,38]只评估人工遮挡图像的部分遮挡的鲁棒性,我们也评估MS-COCO数据集的部分遮挡对象的真实图像。我们证明了合成网在遮挡下对部分遮挡对象进行分类时达到了最先进的结果。
3.据我们所知,我们是第一个研究图像中定位遮挡物的任务,并表明合成网络在本质上优于基于字典的合成模型(dictionary-based compositional models )[14]。
2.Related Work
**Classification under partial occlusion.**最近的研究[38,14]表明,与人类相比,当前的深度架构对部分遮挡的鲁棒性明显较差。Fawzi and Frossard [7] showed that DCNNs are vulnerable (脆弱的)to partial occlusion simulated (模仿)by masking small patches of the input image. 相关研究[6,35]提出在训练过程中通过遮挡图像中的patch来增强部分训练数据。然而,我们在第4节的实验结果表明,这种数据增强方法对DCNN对部分遮挡的鲁棒性影响有限。一个可能的解释是模拟遮挡物的困难,由于他们在外观和形状方面的巨大差异。Xiao等人[33]提出了TDAPNet,这是一种具有注意机制的深度网络,它可以掩盖较低层的遮挡特征,提高对遮挡分类的鲁棒性。结果表明,该模型在具有真实遮挡的图像上表现不佳。与深度学习方法相比,生成的合成模型[12,39,8,4,16]已被证明,当使用鲁棒遮挡模型[13]增强时,对部分遮挡具有天生的鲁棒性。该模型已成功应用于部分遮挡的物体部分检测[29,37]和部分遮挡下的二维模式识别[10,15]。
**Combining compositional models and DCNNs.**Liao等人[19]提出在学习过程中对dcnns的特征表示进行正则化聚类,将可组成性融入dcnns中。他们的定性结果表明,产生的特征聚类类似部分检测器。Zhang等人[36]证明了部分检测器是通过限制特征映射的激活使其具有局部分布而出现在DCNNs中的。然而,这些方法并没有被证明能够增强深度模型对部分遮挡的鲁棒性。相关工作提出将卷积核正则化为稀疏[24],或者强制对不同对象[23]解除特征激活.由于合成模型不是显式的,而是隐式的编码在dcnns的参数中,因此得到的模型仍然是对部分遮挡不鲁棒的黑箱dcnns。许多著作[18,25,26]使用可微的图形模型将部分-整体组合集成到dcnn中。然而,这些模型是纯判别的,因此也是没有内部机制来解释部分遮挡的深度网络。Kortylewski等人[14]提出从DCNN的特征学习基于生成词典的合成模型。如果DCNN的分类评分低于某一阈值,他们使用自己的合成模型作为独立训练的DCNN的“备份”。
在这项工作中,我们建议将生成的合成模型和dcnns整合成一个统一的模型,该模型对部分遮挡具有天生的鲁棒性。特别地,我们建议用一个可微的合成模型来替代完全连接的分类头。我们用反向传播训练模型参数,同时根据最后一个卷积层的神经feature激活将合成模型正则化生成。我们提出的模型在分类部分遮挡对象的同时也能够准确定位遮挡对象方面显著优于相关方法。3.在3.1节中,我们介绍了一个完全生成的合成模型,并在3.2节中讨论了如何在端到端系统中与DCNNs集成。
因公式太多,笔者不熟练在上敲上公式,剩余内容已经上传到资源。
<>
