Advertisement

Dual-Stream Interactive Networks for No-Reference Stereoscopic Image Quality Assessment

阅读量:

摘要

基于HVS是层次双流交互这一现象,提出了本文算法。提出的网络是端到端的双流交互的神经网络包含左右视点的子网络,其中两个子网络的交互发生在多个层中。

介绍

人类视觉皮层是一个层次结构,各组成皮层区域之间存在相互的皮质-皮质连接,包括低级视觉区域,即初级视觉皮层(V1)和高级视觉区域。根据这一事实,本文提出了一种算法,在该算法结构中,除了全连接层之外,在卷积层中将失真图像对的左右视图通过加减进行组合连接,这和HVS的融合视差信息相对应。
由于图像质量评价中数据集较小,而且传统的图像数量增强的方法在质量评价中并不适用,因此,根据训练方式,方法可分为两种,图像块的训练和图像的训练。
本文算法是首次将双流网路结构应用于NR-SIQA任务中,接下来分析理论依据:具体来说,在三维视觉刺激处理过程中,双眼融合和视差反应最初形成于V1皮质区,这是一个低水平的视觉区域。此外,将双目求和和减法通道的视觉信号进行多路复用,然后V1中的每个神经元接收来自这两个通道的视觉刺激的加权和。然后,利用V2视觉区域的输出对背侧流和腹侧流进行处理。一般认为,背侧流以粗立体视为主,腹侧流以细立体视为主。更深一步的说,双目融合和视差在高级视觉区域得到加强,因此双目融合和视差发生在低级和高级区域。换句话说,视觉融合发生在视觉处理的低级和高级区域,因此该网络将左右视图在多层中进行了融合交互。
该算法的主要贡献是在多层中进行了密集交互连接。
在这里插入图片描述

网络结构

首先将左右视图进行分块处理,将所分的图像块输入到双流网络中,在获得每个图像块的质量分数后,进行平均池化获得最终整幅图像的质量分数。
网络有左右视图两个子路径,两个自网络的concatenate发生在多层中。如上图所示,网络总共包含五个卷积层和两个全连接层,子网络结构如下:32X32-16X16X32-8X8X32-8X8X64-8X8X64-4X4X128-512-512。其中在卷积层2和卷积层5处进行了concat,在全连接2层对所有提取的特征进行了concat得到2048维向量,最后通过全连接层得到块的质量分数。分块的方法很简单,只是使用每个块为32x32的块,对原图像进行分块处理,这种分块处理对于缺少数据的网络十分有效。其中对图像进行concat时是将左右图像的sum和sub图进行concat连接,操作如下:
在这里插入图片描述
最终结合四个通道的特征得到最终的特征:
在这里插入图片描述
四个通道特征分别为左右视图和卷积2,卷积5得到的特征。
在训练时对每个块进行训练,使每个块的质量分数与图像的真实质量分数尽可能接近,即最小化它们之间的距离。
在这里插入图片描述
在测试时对图像块进行全全局平均池化得到最终的图像质量分数。
在这里插入图片描述

个人感想

总体来看该网络结构相对简单,但其有个创新点在于将左右视图的卷积网络进行了多次交互连接,在开始的卷积出进行了一次,在卷积结束时交互连接了一次,这加深了左右视图的相互作用,同时在训练时,损失函数不是求整个图像的损失,而是求每个图像块的损失,在训练时将图像块的预测分数进行全局平均得到最终的质量分数。在这里提出个想法,是否可以将中间卷积的过程也进行交互连接能否使训练更好,同时结合之前所看的2DIQA的文章,将低级特征也提取出来是否也对最终结果有所效果。

全部评论 (0)

还没有任何评论哟~