Asymmetric Two-Stream Architecture for Accurate RGB-D Saliency Detection学习笔记
一、背景
**
1.对某些复杂情况的RGB图像特征难以鉴别。
appearance features in RGB data are less predictive to some challenging scenes
2.由于RGB图像的复杂特征使用对称两步流模型会“overlooked”,从而产生大量损失。
a symmetric two-stream network may overlook the inherent differences of RGB and depth data.
existing RGB-D methods inevitably suffer from detail information loss [41,16] for adopting strides and pooling operations in the RGB and depth streams.
3.现有的解决方案限制预测特征结构和细节。
An intuitive solution is to use skip-connections [22] or short-connections [21] for reconstructing the detail information.Although these strategies have brought satisfactory improvements, they remain restrictive to predict the complete structures with fine details.
**
二.本文要解决的问题
1.有效提取全局信息并且保留局部细节。
2.使用深度特征引导RGB特征精准定位显著目标。
**
三.解决方案
**
1.用流动梯子模型(FLM)和深度网络(Depthnet)解决局部细节获取和整体信息。
2.采用深度注意模组(DAM)确保深度线索准确引导RGB特征。
**
四.新的技术

**
1.DepthNet
深度特征具有更多的空间位置信息,将深度图在深度网络中传递以获取空间细节,由于深度图没有RGB图那些多余的通道,所以通过将深度网络模型卷积层通道数减少从而缩小模型规模。
2.RGBnet
设计了一个以vgg19为主干网络的和流动梯度模型组成的rgbnet,对于vgg网络,删掉了后面三个全连接层,保存5个卷积块和池化层。而FEM可以保存多层分辨率,通过四层细节传输branch保存特征局部细节,然后与来自DAM的全局位置特征融合,从而确保局部和整体信息。如图一所示,FLM由4行branch组成,每个branchlayer由4个basicblocks组成,每个blocks再由2个卷积层组成(有些类似resnet的残差网络结构),FLM通过这四个branch传递细节信息,而不采用池化或者步长,这样便使loss降低。每层branch不仅会收到来自卷积层的rgb特征信息也会收到自DAM的融合特征信息,通过这种方式生成整体—局部信息并保存显著性细节。深分支和低分支深分支和低分支信息通过上下采样融合到对方,这样将局部信息和整体信息有效的结合。
3.DAM
为了充分利用具有鉴别力的深度线索,设计了深度注意模块(DAM)如图一所示,通过深度特征所具有的空间和结构信息利用用一个1*1的卷积层和softmax函数来精确的提取显著性区域,原始输入深度特征经过sofmax函数生成注意权重然后和原本的depth隐藏状态相乘生成上下文向量,然后将信息压缩成注意力向量传到下一层。注意力权重决定了我们寻找显著性目标时的贡献程度,不同通道对显著区域的反应不同,从而采用一个channel-wise attention block去获取不同通道间的依赖。接着将注意力向量和原深度图点乘生成缩放点积注意力,这就是我们最后获取的显著性目标。
