3D No-Reference Image Quality Assessment via Transfer Learning and Saliency-Guided Feature Consolid
摘要
该论文提出了一种两阶段方法。首先基于迁移学习的思想,在已有网络的基础上对最后一层构建了一个特征提取算子以获取关键特征;其次通过显著性图作为权重将左右视图中提取出的特征进行融合,并在多尺度下加入视差信息以提高融合效果。随后将上述提取的所有特征用于后续训练过程,并最终运用支持向量回归(SVR)模型进行数据训练
介绍
图像质量评价的核心理念旨在识别表征失真程度的关键特征。传统的评估手段主要包括两类:一种是基于NSS的技术...
在此研究中,则采用基于CNN的技术进行特征提取。直接将预训练模型导入IQA系统的效果并不理想...

算法详解
迁移学习的可行性
预训练网络是在大规模数据集上经过系统性训练得到的专业模型,并且在应用时若所使用的领域范围限定得当,则微调方法通常能展现出较高的适用性与效果。其优势主要体现在以下几点:首先,在设计阶段对图像进行特征提取时,默认会采用统一的技术架构构建基础模型;其次,在具体实施过程中可依据实际需求对模型参数进行针对性优化以适应不同应用场景的需求;最后,在技术实现层面则会借助成熟的算法框架支持多维度问题的有效解决策略;此外,在模型性能评估方面也会引入多指标量化体系作为判断依据
系统的分析微调CNN
为了提升CNN在IQA方面的具体感知能力, 本研究采用了以下详细步骤: 将输入的所有失真图像按照MOS值划分为六个具体的级别, 替代预训练模型的最后一层全连接结构, 输出分类结果分为六类, 并采用LIVE2D数据集进行微调模型的训练; 其中2D数据集中的MOS评估标准与3D一致, 特别地在设计实验时需确保测试用例不参与模型训练过程; 经过充分优化后建立起来的微调模型能够有效提取出特征向量, 并对其进行归一化处理作为最终输出
CNN特征融合
基于数目视觉的影响这一前提下,在本研究中我们采用了基于显著性引导的方法实现左右视图特征的有效融合以构建最终的质量感知特征。其中显著性图的主要作用在于突出吸引注意力的区域并反映图像的能量分布情况。在这一过程中我们巧妙地结合了双目竞争原理将其应用于融合过程当中具体而言通过使用显
著性图为权重对左右视图进行信息整合从而实现了更为精确的质量感知效果这一创新性的解决方案在数学上可表示为:S(x, y) = \sum_{(u, v)} w(u, v) \cdot f(x-u, y-v)

多尺度视差特征
视差信息在人类立体视觉感知中具有显著的影响。当失真现象出现时,在统计学上观察到视差图的分布特性会发生变化。除了基于CNN提取的关键特征之外,在模型训练过程中还引入了额外的视差特异性数据作为辅助学习素材。

统计指标涵盖以下几点:均值、方差、峰值和偏离度;在此基础上提取出4个特征向量,并采用多层次的分解策略进行多尺度处理;通过四个层次的计算得到总共16个统计指标。
训练
训练时采用SVR训练,采用5折交叉验证,80%作为训练集,20%作为测试集。
个人感悟
以下是我的观点:基于迁移学习的方法利用已有网络来进行特征提取的做法并未展现出显著改进的效果。当对模型微调时首先要完成的是将失真图像成功地从数据集中筛选出来并对其进行分类训练这一过程具有一定的创新性。在此过程中我们成功地从失真图像中提取出与失真相关的关键特征这些技术在现有方法中已较为成熟。然而随后运用显著性图来进行特征融合以及视差图统计特性等操作并未展现出特别突破性的贡献这些步骤也未带来新的思路或技术突破相比之下我认为前文提到的特征集取过程是一个值得深入研究的方向其核心思想在于通过分阶段的方式优化模型的学习效率这一策略也适用于将该方法应用于模型训练过程中并采用分阶段的方式优化预测效果这与现有的两阶段算法框架具有相似的思想基础
