论文解读|2020TPAMI|Deep High-Resolution Representation Learning for Visual Recognition
该论文提出了一种名为HRNet的深度高分辨率表征学习网络,在视觉识别任务中表现出色。其核心特征包括并行多分辨率卷积流和重复多分辨率融合模块,能够保持并增强高分辨率表示的能力。实验表明,HRNet在人体姿态估计、语义分割和目标检测等广泛应用中取得了优异成绩,并特别在小目标检测方面表现显著提升。该网络通过高效的学习机制和模块化设计,在保持计算效率的同时实现了更高的识别精度。

用于视觉识别的深度高分辨率表征学习
github:https://github.com/HRNet
论文地址:https://arxiv.org/pdf/1908.07919
摘要
在处理位置敏感的视觉问题时, 保持高分辨率表示至关重要, 如人体姿态估计、语义分割及目标检测等任务都需要高度精确的空间信息以获得准确的结果。现有最先进的框架通常会将输入图像先编码为一个基于子网络生成的低分辨率特征, 其中该子网络通常由一系列自上而下排列的卷积层构成, 并通过自适应分支结构实现多尺度特征提取。随后会对该低分辨率特征图进行反向推断以重建出原始图像的空间细节。与现有技术不同的是, 我们提出的网络命名为HRNet, 在整个处理流程中始终维持着完整的高分辨率表示, 这一特性使其在保留空间信息的同时实现了对细节特征的有效捕捉与重建
该系统具有两个主要特点:首先通过并行化构建高分辨率与低分辨率卷积流之间的关联;其次各决策单元之间持续进行信息交互。其优势在于能够有效提升语义表征的丰富性同时显著提高定位精度。
我们着重强调了所提出的系统在多方面的应用中的突出表现,并具体涵盖了人体姿态估计、语义分割以及目标检测等多个领域;这进一步证明了HRNet作为解决计算机视觉问题的有效途径具有更为强大的支撑作用。
介绍
我们对比研究了两种HRNet架构设计方案。第一个版本命名为HRNetV1,它仅生成基于高分辨率卷积流的高分辨率表示,并采用热图估计框架实现人体姿态估计分析。实验结果表明,在COCO关键点检测数据集上实现了姿态估计性能的优势[94]。第二个版本命名为HRNetV2,它整合了从高到低分辨率的所有并行流特征表示,并通过组合高分辨率表示来估算分割图进而应用于语义分割任务。研究发现,相对于COCO姿势基准测试集中的表现,HRNetV1与HRNetV2具有相似的整体性能水平;但HRNetV2相较于前者的语义分割任务效率更高。此外,我们还开发了一个多级表示方案命名为HRNetV2p,并将其整合到最新的检测与分割框架中进行评估,包括快速R-CNN、级联RCNN[12]、FCOS[136]以及中心网[36],同时也针对最新的联合检测与实例分割框架进行了测试,包括掩码R-CNN[53]、级联掩码R-CNN以及混合任务级联架构[16]等模型体系
该网络采用并行架构将卷积操作从低分辨率向高分辨率依次展开,在处理过程中始终保持高分辨率特征图,并通过多尺度特征融合技术生成具有位置感知能力的高质量结果。本研究工作是对先前会议论文[130]的重大扩展,在现有研究基础上新增了[131]中的补充内容,并结合了最新开发的先进的目标检测与实例分割框架中的实验结果。主要创新点包括:首先对原始模型架构进行了优化升级至HRNetV2和HRNetV2p版本;其次探讨了多分辨率表示的重要性及其在模型性能提升中的关键作用;最后通过大量实验验证了两者的有效性。
HRNet
我们将图像输入至一个主干中,并让该主干由两个 stride=2 的 3×3卷积层构成。这样处理后能够使图像分辨率降低至1/4倍。随后输出一个与之分辨率相同的表示主体(如图2)。该主体将在下文我们将详细阐述其组成部分:包括并行地进行多分辨率卷积操作、通过重复的方式融合多分辨率特征以及图4所示的表示头。

Parallel Multi-Resolution Convolutions 并行多分辨率卷积
改写说明

Repeated Multi-Resolution Fusions重复多分辨率融合
该模块的核心功能是用来实现跨多分辨率表示之间的信息传递过程。该过程每隔4个剩余单元就会被调用一次以确保数据的有效交互。
我们建议查看图3中的例子来更好地理解这一机制。

Representation Head表示头
我们有三种表示头,如图4所示,分别称为HRNetV1、HRNetV2和HRNetV1p。
HRNetV1。输出只是高分辨率流的表示。其他三种表示被忽略。这如图4 (a)所示。
使用HRNetV2方案时,在低分辨率特征中应用双线性插值进行重构得到高分辨率特征分支。未对高分辨率分支进行通道调整以维持区分能力,并将各分支输出随后通过1×1卷积层融合生成最终特征分支。这如图4 (b)所示。
该方法通过对HRNetV2的高分辨率表示输出进行多级下采样构建了多级别的表征。如图4(c)所示,在本文中我们将展示以下应用成果:使用HRNetV1进行人体姿态估计;使用HRNetV2进行语义分割;使用HRNetV2p进行目标检测。

结构和分析
该系统由四个主要阶段与四个独立并行卷积模块构成。各模块的空间分辨率设置为1:4、1:8、1:16及1:32。其中第一部分包含四个残差块,在每个残差单元中均基于64通道的瓶颈结构设计,并随后执行3×3卷积操作以调整特征图宽度至C值。第二部分仅含一个模块化组件,第三部分则包含四个模块化组件,并联设计第四部分三个模块化组件。在各个多分辨率并行分支中均设置了四组连续的残差连接结构(即剩余单元)。每一步操作后均接批量规范化层与ReLU激活函数处理。各分辨率级别的卷积操作所对应的输出通道数量分别为C级(初始分辨率)、2C级(次高分辨率)、4C级(更高分辨率)及8C级(最低分辨率)。具体架构示意图可见图2
我们对模块化架构进行了系统性分析,并重点关注了两个关键组件:多分辨率并行卷积(如图5a所示)以及多分辨率融合模块(如图5b所示)。在群卷积机制的基础上,多分辨率并行卷成交替采用了一种分组策略:通过将输入通道划分为若干子集,在不同空间尺度上独立应用规则卷积操作。这一特性赋予了该模块相对于传统群卷积的优势。与常规单尺度分支结构不同的是,在多分辨率融合模块中(如图5c),输出通道与多个细粒度的空间特征层进行深度交互。值得注意的是,在传统的单尺度分支架构中(如文献[178]所述),这种特性并未被充分考虑。

训练和结果(只记录语义分割部分)
我们采用了相同的训练协议[181]、[182]。通过对图像进行随机裁剪(将图片尺寸从1024×2048调整至512×1024)、在[0.5, 2]区间内实施随机缩放以及进行水平翻转来扩大数据量。我们采用了基础学习率为0.01、动量为0.9、权重衰减为0.0005的SGD优化器,并结合指数下降的学习率策略以逐步降低学习速率。所有模型均经过了12万次迭代的训练,在配备4个GPU并采用同步BN技术时实现了批量处理能力为每批次12张图像





在small model上的表现(轻量级网络)

