Stereoscopic image quality assessment by deep convolutional neural network
摘要
基于人脑内部生成机制(IGM)的研究发现,在处理视觉信息时大脑首先会对感知到的信息进行分析并提取出有效的视觉特征。本研究开发了一种双通道深度前馈网络(DCNN)用于图像质量预测。具体而言我们首先设计了一个孪生网络分别从左视图和右视图提取高阶语义特征以模仿人脑不同视觉区域的信息处理特性;随后通过卷积操作将左视图和右视图的高级特征进行融合从而模拟人脑不同视觉区域之间的信息交互过程最终融合后的特征则用于计算图像质量分数
介绍
采用基于二维图像的质量评估方法来分析三维图像,在所考察的三维图像呈现对称畸变时,所得结果具有较高的准确性;然而,在存在非对称畸变的情况下,则该方法的表现则较为有限。因此本文所提出的算法的主要贡献体现在:
- 基于内部生成机制的影响, 采用深度卷积网络架构以提取与立体图像相关的高级语义特征
- 考虑到双目融合视觉特性的特点, 通过融合左右视图数据来获取相应的高级语义特征
算法框架
在处理过程中, 通过将左右图像输入孪生网络系统中进行处理, 该系统架构包含了四个独立的卷积层模块, 能够有效提取并解析左右图像所承载的高级语义信息。在此阶段, 进一步提取和整合了各子网络输出的高级语义特征, 并通过多通道卷积算子对各子网络输出进行深度融合与特征增强。这种多模态特征融合机制能够有效还原人眼视网膜中的视觉信号传递机制。最后, 该方法利用全连接神经网络模型对各子网络生成的关键特征图进行整合, 最终生成统一的质量评估向量。

框架的设计细节
输入图像尺寸设定为80×80像素,并通过多层3×3尺寸的卷积核堆叠来提取复杂的语义特征。整体设计包含四个独立的卷积模块:前三个模块中的每一个均包含两层3×3卷积操作;第四部分则配置了四层层叠以进一步增强深度特征表达能力。在每个卷积模块之后配置一个最大池化操作以降低采样率并增强特征表达能力;第一阶段主要负责提取高阶 semantic 信息;随后第二阶段则专注于对各 semantic 区域的信息进行融合与整合;通过上述多级特征融合过程能够系统地构建起完整的立体图特征表示。

个人感想
就整体而言,该算法缺乏创新性;其结构设计较为传统;值得注意的是,在左右视图融合过程中,并未等到最后一步进行融合;而是先进行了初步整合,并随后运用卷积操作提取特征信息;其他部分也没有引入新的技术手段或思想。
