Advertisement

【图像质量评价】No-reference Image Quality Assessment with Deep Convolutional Neural Networks - 2016 ---3区

阅读量:

该文本讨论了深度学习在图像质量评估中的应用,主要围绕以下几点展开:首先介绍了基于深度前馈神经网络(如ReLUs)在图像分类任务中的优势及其加速训练的效果;其次探讨了卷积神经网络(CNN)作为广义线性模型(GLM)的应用及其局限性,并提到通过引入微分网络结构来改进特征提取能力的方法;接着分析了图像质量客观评价指标(MOS)的获取方法及其标准化问题,并提出了一种基于全图象均值归一化的深度学习框架用于估计图像质量评分;最后讨论了具体的网络结构设计(如NIN网络)、数据增强方法(如缩放至448x448并微调)、超参数优化策略(如批量大小为2、学习率为1e-4等)。此外还提到了一些可能的研究方向和改进思路,例如借鉴SGD优化器进行超参数设置优化、利用1*1卷积核设计提高模型性能以及采用更大的图像分割块以提升评价精度。

一、直接引用

1、P2 “[15] demonstrated that in a deep CNN that ReLUs enable the network to train

several times faster compared to using tanh units.”

P2: The underlying data patch in CNNs employs a Generalized Linear Model (GLM) as their convolution filter. In reference [16], Lin et al. maintain that using GLM results in low abstraction levels, indicating that traditional CNN filters learn features variant to those of similar concepts.

Lin et al. advocate for replacing the GLM with a 'micro network' architecture, which functions as a versatile nonlinear function approximator, employing MLP for its instantiation.

Similar to [11], each patch is scored a normalized quality score equivalent to its source image's normalized mean opinion score (Nmos).

二、作者的观点

**1、**P1 : [ “one of CNN’s advantages is that it can take raw images as input and

Integrate feature learning into the training process. Thanks to its deep architecture, the convolutional neural network (CNN) is capable of effectively capturing intricate mapping patterns with minimal reliance on domain-specific knowledge. By employing this approach, there becomes unnecessary expenditure in crafting elaborate handcrafted features.

**2、**P2 :每个图像的质量评估指标MOS值是通过人类主观意见确定的,这些意见基于对整幅图像感知的理解.然而,使用32x32大小的小块作为分析单位存在局限性,因为这些小块可能无法充分捕捉到图像中的细节信息.

从一个大小为2^{11} \times 2^{11}的图像块开始,在每个通道中执行全局归一化操作:通过从该通道中的每个位置减去该位置对应的ImageNet均值图块来进行归一化处理。我们利用这个深度神经网络模型来评估每个图像块的质量评分,并将各个图像块的质量评分取平均值来推断整个图像的质量评估结果。

**4、**P3 : The MLPConv layers are capable of being implemented via a traditional convolution layer followed by multiple additional convolution layers, each equipped with 1x1 convolution kernels and ReLU activation functions.

function.] (备注: 承接直接引用的3)

对原始全色图像进行降维至448 \times 448分辨率,并在这些图像中提取大小为224 \times 224的片段作为训练数据输入到网络中。

**6、**P2: [网络结构:

使用的网络是NIN网络结构。

备注:我们保留了原有的红色网络,并在此基础上新增了蓝色连接到原先第27层。

]

The model is pre-trained based on the large-scale ImageNet dataset. The model then performs network modifications and conducts fine-tuning using the target datasets.

P3:LIVE的MOS评分为0至100分区间。更高的MOS值与更为优秀的图像质量相关联。

在训练过程中,在Batch Normalization中使用以下超参数设置:批量大小(batch size)被设定为2;学习率(learning rate)被设定为1\times10^{-4};学习率衰减(learning rate decay)被配置为1\times10^{-7};权重衰减(weight decay)被设定为5\times10^{-5};动量(momentum)被设置为0.9;最大迭代次数(max epochs)被指定为300

三、我的观点

1、P3: (由作者的观点8,可以借鉴超参数的设置,作者使用的SGD)

2、(可以借鉴作者的观点4, 即使用1*1 的卷积核)

3、(由作者观点2,可以考虑选择较大的patch进行训练)

全部评论 (0)

还没有任何评论哟~