Advertisement

近期deep learning做图像质量评价(image quality assessment)的论文4

阅读量:

2017年的学术研究成果或创新成果(ICME):深度卷积神经网络模型具有高度精确度(无需参考)的图像质量评估能力,并由复旦大学的研究团队完成

1.1 基于残差网络(如ResNet)的部分知识,在此仅采用了两层残差模块进行研究。其系统接收大小为32×32像素块作为输入,并且其中标签由FSIM方法生成。

其中sum1被定义为其输出特征图间的逐像素叠加。

1.2参数的设置:input:32*32,没有任何预处理,非重叠取块 ;损失函数:1范数;Learning rate的初始值为0.01,每过5个epoch,learning rate下降10倍,learning rate等于0.0001时,就固定不变了;80 epoches。在LIVE和TID2008数据库上进行试验,LIVE:PLCC-0.974,SRCC-0.971; TID2008:PLCC:0.957,SRCC:0.939。实验时,并没有将数据库分成train data (80%)和test data(20%), 原因论文中也讲了,作者用FSIM计算每一个image patch的分数,当成是image patch的label。其实,这类方法很多论文都出现过,但是用FSIM计算image patch的label,好像是第一次见到。(这类方法就是opinion-unaware)。!!!!需要注意的是,以为TID2008数据库中包含的失真类型太多,大部分论文都只使用部分data去做train和test(几种常见的失真)。

评论:这种方法与FR方法在计算whole image label时有何不同呢?比如FSIM,在LIVE数据库上的表现通常不超过0.96。即使深度学习完全掌握了映射关系f,并能在distorted image上输出对应值为FSIM的结果,则该算法的表现无法超越FSIM。这暗示着使用FR方法计算whole label时所得到的结果可能会受到FR方法本身的限制。(如有误恳请指正)

The FR method-based approaches have been extensively employed to estimate the whole-image labeling, as evidenced by significant contributions in 2016 NC, 2017 TSMCS, and 2017 TIP journals. These studies collectively emphasize the development of blind quality estimation techniques tailored for screen content images.

2、2017TIP:Advanced Deep Neural Networks for No-Referenced and Full-Referenced Image Quality Assessment.

此论文提出了两个框架,一个是FR,另外一个是NR的,框架都差不多!。

---FR framework:

输入是参考片段和受Distorted影响的片段(注:根据论文内容可知),其中每个min-batch仅包含4 images(注:原文应为"image"而非"patches")。具体而言,在一个min-batch中会从每一张image中随机提取32个图像块进行处理。然而作者指出:尽管在分片的方法中可以将每个image patch视为独立样本放入不同的mini-batches以便于训练使用(注:原文可能存在误解),但同一张image中的不同patch不能被分配到不同的mini-batches中去(注:因为它们会在最后层计算归一化权重时被合并使用)。因此在这种情况下批处理大小实际上是4而非128(注:这与论文所述batch size为128存在矛盾)。这表明我之前对于batch size的理解存在偏差。

网络基于VGG架构,在论文中设定图像Patch尺寸为32 \times 32后构建了如下特征提取流程:先是连续两次应用conv^{3}_{-}{}^{(}-{}^{)}{}^{(}-{}^{)}{}^{(}-{}^{)}{}^{(}-{}^{)}并配合**max-pool**池化操作逐步降采样特征;随后通过两次conv^{3}_{-}{}^{(}-{}^{)}{}^{(}-{}^{)}{}^{(}-{}^{)}提升通道数量至1597维;最后采用全连接层计算每个Patch对应的权重参数以及质量评估指标。值得注意的是,在这一过程中Concatenate操作连接了上下文特征分支从而生成最终输出向量。关于该框架图中存在的一些疑问及与现有文献对比讨论已另作阐述。

---NR Framework:

NR和FR的框架是一样的。

3、2017TJSTSP:Fully deep blind image quality predictor

----所提出的算法主要包括两部分:step 1 and step 2.

----step 1

尺寸为32×32的空间区域,在对图像块进行提取的过程中,默认会经历一种对比度归一化的处理步骤。其具体实现细节可在BRISQUE等文献中找到详细的描述。

预处理: 通常情况下,并非所有图像中的每个像素块都能提供有价值的信息,在这种情况下我们可能会忽略背景或其他冗余信息。移除非那些具有低空间变化性的图像区域或像素块,并未详细描述具体的处理步骤。这些方法中提到了如何选择合适的图像分割方式等问题。输出Label: 在这些研究中使用的框架通常采用基于特征相似性的评估指标来计算每个分割后的区域得分作为标签值,在这些研究中使用的框架通常采用基于特征相似性的评估指标来计算每个分割后的区域得分作为标签值;而本研究采用了四个不同的评估指标来衡量分割后的区域质量——如SSIM衡量视觉相似性、GMSD反映纹理细节保留度等;然而目前尚不清楚如何将这些指标综合集成一个单一的评分数值。

公式如下:

----step 2: 输入是一张完整的图片,在step 1生成的网络中对每一块区域进行提取操作。每个区域都会被映射到一个包含有理信息的向量空间里,在计算过程中会得到N乘以100的结果。为了综合考虑各区域间的差异性关系,在计算时会采用均值与方差作为加权指标。经过计算后会将维度缩减至每条样本有2个特征指标,并最终输出结果作为主观评分

4、有时间再添加

2017年tip:基于局部到全局特征聚合的盲深S3D图像质量评估采用了相同的方法论。具体架构如下:

Step1: 采用用于3D图像质量评估的FR方法[1]进行计算, 并提及所涉及的3D图像. 由于仅研究了一段时间, 所述讨论主要基于标准化的3DIQA数据库. 在该数据库中, 图像失真类型主要包括对称破坏与非对称破坏两种类型. 具体而言, 对于同一场景中的左右视图来说, 对称破坏是指左右两幅子图像均受到相同的干扰影响, 如当左视图遭受Gaussian噪声污染时, 右视图画质也会相应下降; 非对称破坏则表现为左右两幅子图像受到不同类型的干扰影响, 如若左视图受Gaussian模糊影响而右视图则经历对比度变化等具体情况. 此外, 该标准化数据库在实际应用中的表现性能已达到较高水平

Step2:同2017IJSTSP:(恩,这篇论文是发在TIP上.....)

[1]M. J. Chen, C. C. Su, D. L. Kwon, L. K. Cormack, and A. C. Bovik, “Full-referencequality assessment of stereopairs accounting for rivalry,” Signal Processing:Image Communication, vol. 28, pp. 1143-1155, 2013.

简单聊一下这篇论文:可以说这是我第一篇接触的3D IQA领域的论文。它开发出了一个名为LIVE 3D数据库的数据库。在这一框架下,他们开发出了一种将三维图像转换成二维图像的方法,在比较原始三维图像与受失真三维图像之间的相似性方面取得了显著成果,并成功应用了M-SSIM算法来评估这种相似度

多尺度结构相似性算法被称为M-SSIM。在图像处理过程中,首先采用downsampling技术对图像进行降采样处理,在各个降采样层次上计算各层对应的结构相似度指标(SSIM),然后将这些指标进行综合评估以获得最终的评估结果。

全部评论 (0)

还没有任何评论哟~