Advertisement

video pixel networks阅读笔记

阅读量:

一、模型结构

本文定义了一个由VPN(video pixel networks)来执行的概率模型。

代表第t帧(i,j)位置上c颜色通道({R,G,B})的像素值。链式法则被用来将视频似然函数p(x)展开成一个条件概率乘积的形式。同样可以采用较为简便的方法来建模。

代表第t帧(i,j)位置上c颜色通道({R,G,B})的像素值。链式法则被用来将视频似然函数p(x)展开成一个条件概率乘积的形式。同样可以采用较为简便的方法来建模。

在因子分析中遵循两个准则是确定变量顺序的标准。第一个准则是基于数据特征及其应用需求来设定;视频帧预测时则依据时间序列进行。第二个准则是为了提高计算效率而设定变量排列;例如,在像素预测中是从左上方依次到右下方依次处理。最后,在颜色预测方面遵循红、绿、蓝(RGB)序列依次处理。

二、网络结构

该VPN模型主要针对四个维度(t,i,j,c)展开建模工作。从上图可以看出,在预测G中第t帧像素x时,则需参考:

(1)t帧之前所有帧的所有像素;

(2)第t帧中已经预测得到的所有3种颜色的像素;

(3)第t帧中已经生成的R中的像素x。

(1)Resolution Preserving CNN Encoders

作用:用来计算一个video tensor(即 X(t,i,j,c))的时间相关性。

过程:1. 第0-(T-1)帧分别输入T个CNN Endoder。

通过并行处理获得了T个输出结果,并将这些结果用作Convolutional LSTM的输入以获得视频张量的时间一致性

*每个CNN Encoder都由k个residual block组成(本文实验中k=8)

对于第i帧经过CNN Encoder处理后的每一个残差块中的每一层来说,在保存该帧的空间分辨率方面具有高度的关键性。这是因为只有通过这种方式才能确保模型能够在不引入任何表达模糊性的情况下精确生成每一个像素的信息。

*在Convolutional LSTM中同样保留resolution。

(2)PixelCNN Dncoders

作用:计算空间相关性和各颜色维度之间的相关性。

过程:1. 第一部分的Encoders输出了T种上下文表示,这种上下文表示能够有效地适应后续生成的内容。

2.如果生成了所有的T+1帧,那么第一帧F0就能够收到无上下文的表述;

这些上下文的表达被用来适应decoder neural networks的具体情况,其中一种典型的例子就是PixelCNNs

  1. 本文将这些像素值全部转换为离散的随机变量。其最后一种解码器架构采用softmax机制,在每个像素的所有颜色通道中均设置了256个强度级数。
  • PixelCNNs基于第一部分中Encoder输出所带来的上下文信息来构建解码器型神经网络架构,并且该架构包含l个分辨率保留残差块(本研究中取l=12)。每个残差块执行一个受限卷积操作。
  • 在此架构中解码器模块采用了掩膜层设计,在训练过程中对权重施加了限制;而 Baseline方法则未对权重进行遮蔽处理。这种设计差异使得 PixelC N N 在实验任务中展现出更强的学习能力。

三、网络结构细节

Nerwork Building Blocks

(1) 乘法单元 MU

input: h(NxNxc), c:色彩通道数目(例如RGB则c=3)

update:u

gates: g1,g2,g3

经过四个卷积层处理后生成了一个更新变量u以及三个门控子g1、g2、g3。接下来将以上提到的h、u以及g1至g3代入以下公式进行整合。

通常来说,在这种上下文中(大概 σ)是指对输入进行sigmoid函数的非线性变换(因为后面确实涉及到了非线性操作),这一假设仍需进一步验证),而component-wise乘法实际上等同于计算两个向量之间的点积运算。

component-wise multiplication: 内积;
element-wise multiplication:点乘;

*注:

参数W₁-W₄是由一个3×3的滤波器实现的(是否为卷积操作?)。
在该过程中与LSTM网络的不同之处在于记忆单元与隐藏状态之间并无明显区别。
除了Highway网络(Srivastava et al., 2015b)和Grid LSTM (Kalchbrenneret al., 2016),MU未对门控机制进行调整仅直接输出输入u;而这一输入始终采用非线性激活函数σ进行处理。

(2) 残差可乘块(Residual Multiplicative Blocks,RMB)

一个RMB由两个MU层通过叠加结构构成,输入层和输出层具有残差连接特性.

给定input为 h(NxNx2c),

通过1×1尺寸卷积核将通道数量缩减至c(从而将计算量减半),该层不带有激活函数;紧随其后的两个可继承模块中均包含一个3×3尺寸的卷积核

b.用一个1x1的卷积层将特征图投射(project)成2c个通道。

c.将h添加到所有output来形成残差连接。

这样的层结构与bottleneck residual unit of (He et al., 2016)相似。

(3)扩大的卷积(Dilated Convolutions)

可接受域(receptive field)越大有利于模型获取更大的目标的动作。

在保证计算复杂度不变的前提下,在每一层中通过采用加宽的卷积层结构,在每一层中可接受域随着层数呈线性关系扩展的同时呈现指数级扩张趋势。

在许多采用了扩大的卷积结构进行VPN建模的应用中,在同一个区域(RMB)内的放大倍数保持一致特性。然而,在相邻区域之间(下一个RMB)中实施的放大系数是其前一个区域放大系数的两倍值(具体取决于最大化后的尺寸参数),此过程会持续下去。

举例来说,在本文的实验中,在CNN编码器中采用了扩增组合[1,2,4,8]的两个副本,总共引入了8种RMB。

在decoder中不使用扩大的卷积。

四、在Moving MNIST上 实现

为便于与以前的工作比较效果,本实验仍使用交叉熵损失:

实验参数设置:

实验结果对比:

在本次实验中采用的基准模型较之前的方法展现出明显的优势。这种优势主要得益于模型架构中的关键特性,在于其通过网络形式存储关键参数这一重要因素。

相比基准方案(Baseline),该方法表现更优,在测试集上达到了或略高于该基准水平(达到或略高于86.3 nets/frames)。其具体表现基于基于预测得到的10帧数据进行评估。

,则有

有扩张因子的VPN被证明为在处理具有64x64帧图像的大字符时更具优势;这是因为其能够更高效地处理这类复杂图像数据,并展现出卓越的表现;

RMB VPN的表现仅稍优于Relu VPN,并未表现出显著优势。这一结果可能与Moving MNIST任务所涉及的任务难度较低有关。因此在Robotic Pushing数据集上的实现取得了明显的进步。

全部评论 (0)

还没有任何评论哟~