论文阅读笔记Deep High-Resolution Representation Learning for Visual Recognition(2021)
发布时间
阅读量:
阅读量
- 论文:paper
- 原文代码:
(https://github.com/HRNet)
* 文章创新:
1. 提出高分辨率网络(HRNet),网络在整个过程中保持高分辨率表示。
2. 网络主要的特点:
①将高分辨率到低分辨率的卷积流并行链接。
②在多分辨率中反复交换信息。
使得得到的结果表示在语义上更加丰富,在空间上更加精确。
#### 1\. 网络架构
##### 1.1 Parallel Multi-Resolution Convolutions(并行多分辨率网络)
first stage :高分辨率卷积流。
逐步将高分辨率到低分辨率的流逐个添加,形成新的 stage ,并将这些分辨率流进行连接。

如图所示结构,包含4个并行流,逻辑如下图:

其中,Νsr 是第 s stage 的子流(sub-stream),而 r 是分辨索引。索引为 r 的分辨率是第一个流的分辨率的 1/2r-1 。
##### 1.2 Repeated Multi-Resolution Fusions(重复的多分辨率融合)

输入包含图中三种表示和一个额外输出,输入包含三种表示:Rri ,r = 1,2,3,r 是分辨率索引,每个输出表示:Rro = f1r(R1i) + f2r(R2i) + f3r(R3i)。
如下图,stage 3 到 stage 4 的输入输出为:

变换函数 fxr(·) 的选择取决于输入分辨率指数 x 和输出分辨率指数 r 。如果 x = r ,则 fxr( R ) = R ;如果 x < r ,则 fxr( R ) 通过 (r-s)个步长为 2 的 3×3 卷积对输入表示进行下采样;如果 x > r ,则 fxr( R ) 通过双线性上采样对输入表示进行上采样,然后进行 1×1 卷积以校准通道数。这些功能如 Figure 3 。
##### 1.3 Representation Head(表示头)
有三种表示头:HRNetV1 ,HRNetV2 ,HRNetV1p 。
1. HRNetV1 :输出仅来自高分辨率流的表示。其他三个将被忽略。
2. HRNetV2 :通过双线性上采样对低分辨率进行缩放,而不改变高分辨率的通道数,并将四种表示连接起来,然后用 1×1 卷积来混合这四种表示。
3. HRNetV2p :通过将 HRNetV2 的高分辨率输出向下采样到多个级别来构建多级表示。

论文中,将 HRNetV1 用于**人体姿态估计** ,HRNetV2 用于**语义分割** ,HRNetV1p 用于**目标检测** 来进行展示。
##### 1.4 Instantiation(实例化)
网络架构的主题包括四个阶段和四个平行的卷积流。分辨率是 1/4 、1/8 、1/16 、1/32。第一阶段包含四个剩余单元,之后是一个 3×3 卷积,将特征映射的宽度改变为 c 。第二、第三、第四阶段分别包含 1、 4、 3 个模块化。在模块化的多分辨率并行卷积中,每个分支包含4个剩余单元。每个单元包含两个 3×3 卷积对于每个分辨率,每个卷积之后是批量归一化和非线性激活ReLU 。四种分辨率的卷积的宽度(信道数)分别为 C,2C,4C,8C。Figure 2 描述了一个实例化。
总:
总的来说,该网络结构就是在不降低原始分辨率的情况下,分支出其他较小的分辨率,通过在不同 stage 阶段的融合,使得既没有降低原始分辨率又融合了小分辨率的信息。使得得到的特征有更丰富的语义特征。在输出特征阶段分别实验了三种方法:只保留高分辨率特征、多分辨率融合、多分辨率融合并进行多级构建。
推荐论文复现视频:[bilibili](https://www.bilibili.com/video/BV1vL411H78u?from=search&seid=5472653107451214386&spm_id_from=333.337.0.0)
全部评论 (0)
还没有任何评论哟~
