Advertisement

Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Archit

阅读量:

代码开源:http://cs.nyu.edu/~deigen/dnl/

摘要指出该文具有多效合一的特点,在深度预测、表面估计以及语义分析方面表现突出,并且基于相同网络架构在三个方面的应用。

网络结构

这个算法架构设计十分有趣。该算法首先通过全局视角对整张图像进行初步特征提取,并生成整体预测结果。其中整体框架参考自文献[8]。但创新之处在于它实现了第二步的深化。进一步优化了第二层网络的性能。在此基础上增加了第三层尺度信息处理模块。其输出尺寸为输入尺寸的一半。多通道特征网络模块而非仅通过简单的特征传递机制连接各层.What's more, the feature fusion is achieved through concatenation operations.这一设计借鉴了许多现有成功架构的特点.值得注意的是它的创新性值得特别强调.What's more, delving deeper into the architecture reveals its innovative components.

结构描述得非常清晰,在观察一些细节情况时发现(stage2)和(stage3)部分大小不发生改变, 即stride参数设置为1, 而卷积层的通道数量以及核尺寸均未发生变化。(stage1)这一层主要原因是由于经过对AlexNet与VGG网络进行微调后才展现出这种特性, 上采样操作应采用双线性插值方法

接下来逐一分析:

scale 1:全图像视角:

该网络架构输出的就是整个图像区域的粗特征预测。其中包含两种不同的网络架构:AlexNet和VGG。另一方面,在代码实现中也采用了相同的策略。文章后续部分指出通过这种方法能够实现对整体图像特征的有效捕捉。这使得模型具有更广阔的视角。

scale 2:预测

基于上文特征粗提取网络的角度来看,并非局限于单一视角(代码主要聚焦于这一视角问题),但确实带来了更多细节。通过融合来自原图经conv和pool处理后的特征以及来自stage1粗提取层的新特征作为输入。从而能够生成更为精细的结果。在该阶段中设置stride为1的情况下,在此阶段之后输出尺寸仍保持为55×74。使用Stochastic Gradient Descent方法对stage1和stage2进行联合训练。

scale 3: 更高的分辨率

我们的模型最后一个尺度通过提升预测图片的整体分辨率并将其结果进一步细化。相比之下,在经过第二阶段处理后与原始图像提取出其卷积和池化特征的基础上,scale3生成了更为精细的画面视角。

整个网络的输出是输入尺度的一半。

损失

深度预测的loss是:

D是预测,D是ground-truth。d=D-D

整体上说来涉及的是L2损失以及尺度变化带来的误差项,在此我们不做详细讨论;随后考察水平与垂直两个方向上的梯度差异。这一部分能够与ground truth预测所得图像的梯度进行比较;这种对比使得预测结果不仅局限于邻近区域的数据特征,并且能够在一定程度上反映相似局部结构的存在;这样的输出效果更为理想

全部评论 (0)

还没有任何评论哟~