[论文阅读] Deep Image Prior
动机
这篇文章阐述了一个具有吸引力的观点。
具体而言,
在
网络中观察到的现象表明:
当输入为自然图像时,
网络展现出天然的低阻抗特性;
而对于像不规则噪声这样的输入类型,
则表现出天然的高阻抗特性。
值得注意的是,
这种现象与
网络参数以及学习过程
无关。
在我们通常认知中,网络学习由两个主要组成部分构成:其中一部分是关于网络结构本身的特性;即使初始设置为随机值的网络结构本身也具备强大的先验能力;能够从图像中有效提取有用的信息,并且有效地过滤掉噪声信息;另一部分则是通过数据的学习过程进而对权重进行优化调整;使得这一先验能力更加的强大;作者的主要研究集中在第一部分:即关于网络本身结构就可以作为强大的先验提取器(无需训练);这门技术不仅能够有效提取有用的信息,并且能够有效过滤掉噪声信息;而将这种技术比作万能工具Swiss Knife是一种恰当的比喻。
方法
一般来说,逆问题可以转化为下面形式进行求解:

其中输出目标图像是x(记为x),在优化过程中被定义为目标需要处理的对象;原始输入图像为x_0;其中E是根据任务要求设定的数据保真性指标;而R(x)则代表先验知识项,在神经网络训练过程中通过引入标签信息Y进行建模训练。
而作者认为网络结构自身就可以作为一个较为有效的R值;即便不引入额外的标签Y,在这种情况下仅仅是一个基于随机参数设定的网络也同样可以作为较为有效的R值来提取有用的信息并去除无用的信息。即通过这样的能量函数得以实现

其中z被视为一个随机生成的代码标识符,并未接受特殊的个性化处理。通过观察上述公式结构可知,在这种情况下仅显式地建模出了数据项E这一部分特征属性值。而R则通过网络结构隐式地被建模出来作为另一部分潜在表示信息。为了达到这一目标,在求解该函数的过程中我们主要关注的是优化忠诚度指标这一关键指标而不关注于其参数的具体学习过程。
该研究者进行了一个实验,在其中将误差E明确设定为基于二范数的距离指标。该研究涵盖了四个不同的重建场景:包括自然图像、带噪声的自然图像、像素块打乱后的图像以及纯噪声图像。为了实现这一目标的研究者采用了随机初始化的网络模型,并基于数据项进行了相应的训练工作。在实际操作过程中研究人员持续跟踪并记录了每次迭代过程中的均方误差值。

通过这一图表可以看出, 自然图像相对易于学习, 而随机排列或叠加噪声类别的样本在模型训练中表现出较弱的学习效果. 该研究者通过这一图表来阐述, 网络在面对自然图像样本时呈现出较低的学习难度, 这种现象归因于其具备良好的低阻抗特性, 而面对随机排列或叠加噪声类别的样本则呈现出较高的学习难度, 其高阻抗特性使得其学习难度增加. 这种阻抗差异主要源于优化机制的作用, 如梯度下降等算法. 自然图像样本还展现出比其他类别更具'美观性较高的'局部最优解特征.
作者对数据项E函数进行了优化,并使其承担多种任务——如去噪、超分及去遮挡等——均取得了显著的效果。
思考
这篇文章主要探讨了网络在处理不同视觉数据时所展现出的独特特性:即网络对清晰、干净的自然图像呈现出较低的阻力(更容易学习),而在处理复杂噪声类型时则表现出较高的阻力(更为困难)。这种特性本质上与输入图像的固有属性直接相关。例如,自然图像通常具有平滑过渡和平缓梯度的特点,并因此更适合被网络快速学习或收敛至优化解。值得注意的是,在作者的观点中并未明确具体数学推导或解释的形式是否存在某种特定模式或结构差异;但就现有信息而言,在视觉特征上清晰自然的画面与退化画面之间的显著差异这一点我是完全赞同并认同的。
对网络的作用有了新的认识:能够将其视为一种噪声过滤机制,在设计网络架构时会预先引入一些假设或先验知识。随后通过数据学习来加强这一预设条件下的模型构建过程。
