Advertisement

05论文笔记《Video Super-Resolution via Bidirectional Recurrent Convolutional Networks》

阅读量:

《Advanced Video Super-Resolution Techniques Using Bidirectional Recurrent Convolutional Networks》

通过双向循环卷积网络实现视频超分辨率

从RNN到BRCN

SR简介:

High-resolution (High-Resolution, HR) techniques represent a hallmark of computer vision research. High-resolution refers to the process of reconstructing high-quality images from low-resolution observations using software or hardware approaches.

SR问题属于一种监督学习任务;简单来说就是要选择合适的模型来建立低分辨率与高分辨率图像之间的映射关系。

创新点:

首次提出双向循环卷积网络(BRCN)并运用于多帧SR;

循环神经网络RNN:

CNN不具备对基于时序数据的变化进行建模的能力。(这些基于时序的数据按照特定的时间间隔或顺序被采集并存储下来,在描述现象随时间演变的过程中发挥着关键作用)然而,在自然语言处理、语音识别以及手写体识别等领域中,样本的时间顺序这一特性显得尤为重要。针对这一需求的发展,在深度学习领域应运而生了一种特殊的神经网络架构——循环神经元网络(RNN)。

在普通CNN架构中,在每一个单独的时间步上处理的不同样本之间相互不影响。

取出单个的一个单元:

这种视角下来看待问题时,在图中省略掉带有W标记的那个带有箭头的节点后,则整个网络结构就简化为最普通的全连接神经网络。

x是一个向量,它表示输入层的值;

s是一个向量,它表示隐藏层的值;

U是输入层到隐藏层的权重矩阵;

o也是一个向量,它表示输出层的值;

V是隐藏层到输出层的权重矩阵。

现在我们来探讨一下W代表什么。在循环神经网络中,在处理序列数据时,
隐藏层状态不仅受当前输入x的影响,在处理序列数据时也依赖于前一时刻的状态。
权重矩阵W的作用是将前一时刻的状态传递给当前时刻作为输入依据

相较与CNN

双向循环网络BRNN:

目标在于建立与未来数据的联系;而单向循环神经网络主要用于处理历史数据;因此提出了反向循环神经网络用于处理未来数据;通过整合双向循环神经网络系统,则能够实现对过去与未来信息的全面连接。

按照时刻依次展开的结构组成的是双向循环神经网络。可以看出output layer同时连接着前后两个方向的信息_其中包括6个共享权重参数_分别为input to forward layer and backward layer 的两个权重参数_以及前后两个方向在各自的隐藏 layer之间的传递权重参数_还有前后隐藏 layer to output layer 的传递权重参数.

可以由下列式子表示,

3D CNN与2D CNN:

3D CNN在视频分类、动作识别等多个领域都有广泛应用,并被认为是基于2D CNN的一种发展形式。由于2D CNN无法有效地提取时间序列特征,在这种背景下研究人员开发了3D CNN技术以有效提取视频中的时间序列特征。

如图1所示,在Case a)中展示的是2D卷积应用于单色图像的情况,在Case b)中则展示了涉及多个通道的情况(此处多通道图像既可指同一幅图片的不同颜色通道(红、绿、蓝),也可指由多个单独图像堆叠而成的画面片段),每个滤波器通过卷积操作将输入转化为一张二维特征图,并且各滤波器间的相互作用信息被有效整合。

而c)中的3D卷积的输出仍然为3D的特征图。

这表明使用二维卷积神经网络(CNN)处理视频的方式通常是逐帧进行;然而,在实际应用中发现这种方法往往忽视了时间维度上存在的帧间运动信息;相比之下,三维CNN能够更好地捕捉到视频中时间和空间上的特征信息

BRCN的网络结构:

输出结果:

全部评论 (0)

还没有任何评论哟~