Advertisement

Inverting Visual Representations with Convolutional Networks

阅读量:

Inverting Visual Representations with Convolutional Networks

Mahendran和Vedaldi[19]采用梯度下降法来处理可微分图像表示ΦΦΦΦΦΦΦΦΦΦΦΦΦΦΦΦΦΦφφφφφφφφφφφφφ??????

2. Method

令随机变量(\bm{x}, \bm{\phi})代表一张自然图片及其相应的特征向量,则其联合概率分布由p(\bm{x})和条件概率p(\bm{\phi}|\bm{x})共同决定。\其中p(\bm{x})代表自然图像的概率分布。\而条件概率p(\bm{\phi}|\bm{x})则描述了在固定图像\bm{x}下各个可能特征向量\bm{\phi}出现的可能性。\特别地,在这种情况下(即当\phi可被x唯一确定时),我们可以直接将\phi视为x的一个函数。\理论上而言,在这种情况下(即当能够完全获取后验概率分布时),我们的目标就是求解该后验概率分布。\然而,在实际操作中直接应用贝叶斯定理往往不可行。\因此,在本文中我们采用点估计f(\cdot)$,该估计函数使得以下均方误差目标达到最小值:

在这里插入图片描述

损失的最小值是条件期望:

在这里插入图片描述

基于一组训练图片及其对应的特征向量\{\mathbf x_i,\phi_i\}, 我们为了学习up-convolutional网络f(\phi,\mathbf w)中的权重参数\mathbf w, 通过蒙特卡洛方法估算并最小化损失函数(1)的过程

在这里插入图片描述

表明而言,则只需对网络进行训练,并依据其特征向量来推断对应的图像,则可推断出预映像pre-image。

2.1. Feature representations to invert

AlexNet. 我们反转AlexNet网络的架构设计。该体系结构包括五个卷积层和三个全连接层,并在每一层后均接一个ReLU激活函数;其中某些卷积层之后还附加了局部对比度归一化(local contrast normalization)或最大池化(max pooling)操作。具体架构可在附录中详细说明。

在下文中,“当我们在讨论‘某一层的输出’时”,我们特指该层级经过完整处理流程后的最终产出结果。具体来说,则指的是该层级经完整处理流程后的最终产出结果。例如,在第一卷积层级CONV1中(即第1卷积块),其输出将由ReLU激活函数、池化操作以及归一化过程共同作用而生成。同样地,在第一全连接层级FC6中(即第1全连接块),其输出则仅经过ReLU激活函数的影响而形成。值得注意的是,在FC8这一阶段(即分类前馈网络的最后一级),则表示softmax激活函数之前的最终计算单元。

2.2. Network architectures and training

该方法也被称作‘deconvolutional’(也被广泛应用于图像重建领域),它结合了上采样与卷积运算(参考文献[6])。我们采用的方法是将特征图中的每个单元格替换为一个2×2的小块,并将其放置在原始位置周围;其余所有元素均设置为零。这一操作使得特征图的空间分辨率提升了一倍(如表1所示)。其他网络体系结构的相关信息可在附录中找到

在这里插入图片描述

AlexNet

Training details

定量分析 为了对性能进行量化评估,我们采用了归一化重建误差均值这一指标进行衡量。具体而言,在公式中定义:E = \frac{||x_i - f(\Phi(x_i))||_2}{N}, 其中每个x_i代表测试集中的一个样本实例,f代表基于反演过程构建的函数实现,N是一个归一化系数,其计算方式涉及所有图像对之间的平均欧氏距离。值得注意的是,本研究采用的小样本集合是从ImageNet验证集中选取的小样本集合进行实验

4. Experiments: AlexNet

我们采用了所提出的方法将其应用于AlexNet的不同层,并进一步进行了相关实验以便更深入地分析特征表示。完整的实验结果可在附录中查阅。

4.1. Reconstructions from different layers

在这里插入图片描述

如图5所示,在AlexNet的不同层级中进行了图像重构过程的研究。通过提取卷积层中的特征进行重建时,默认情况下生成的结果与原始输入高度相似。然而,在更高层级的过程中会出现细节丢失的现象。具体而言,在CONV5到FC6这一转换过程中(即第5个卷积层到第6个全连接层),整体效果呈现明显的下降趋势。值得注意的是,在更高层次(包括卷积和全连接)的过程中(即从第7个全连接层及以上的层级),虽然也会出现模糊现象(即第7个及第8个全连接层),但这种现象相对轻微,并不能完全忽视其存在的意义——这表明模型在捕捉这些属性方面的能力受到了一定的限制

在这里插入图片描述

Figure 7: The mean normalized reconstruction error rate is influenced by the network layer.

为了在计算误差之前进行定量评估,我们用双线插值对输入图像大小进行上样重建。图7所示的误差曲线支持了上面的结论。当从FC6重构时,误差大约是conv5的两倍.即使从FC8重构时,误差也相当低,因为网络能够正确获得图像中大对象的颜色和大致位置。对于较低的层,[19]的重建误差仍然比我们的方法高得多,即使在视觉上图像看起来更清晰。其原因是在重建过程中,颜色和小细节的精确放置与输入图像不完全匹配,导致了较大的整体误差。

4.2. Autoencoder training

我们的反演网络可以被视为基于AlexNet编码表示的解码器系统。与传统的自编码器相比,在本研究中我们采用了不同的方法:固定编码器参数而优化解码器参数以获取更好的重建效果。为了便于比较和评估性能差异,在实验设置中我们还构建了一个具有相同架构但采用重构网替代自动编码器的对比模型。值得注意的是,在这一过程中我们实现了对AlexNet部分参数的微调优化以进一步提升模型性能

根据图7所示,在较高层次处尝试图像重构时相比而言误差更低。此外,在图6中通过定性分析表明采用自编码器可获得更好的效果即使基于conv5特征提取输入图像基本能够完美重构。然而在全连接层中尝试时因为这种压缩表示方法其输出结果相对模糊且远远逊于固定采用AlexNet权重所获得的结果这一对比关系实际上用于估算由AlexNet自身训练目标造成的图像信息损失量而这一设定并非出自于对重构质量的实际考量而是反映了另一种内在的设计理念

在这里插入图片描述

值得注意的是,在自动编码器中存在一个有趣的观察:即使从conv1特征进行重建(其重建误差显著),其中最佳的重构结果来源于conv4层(其中stride 4步长卷积以及随后的最大池化操作会导致大量图像细节信息丢失)。我们对此做出了解释:在某些情况下(论文中未展示),当第一层不采用stride 4的操作时(较深层数而言),其表示会变得更加紧凑(反而导致了更高的重现率)。

表现将变得过分压缩。我们注意到(论文中未展示),在第一层未采用stride 4时,自动编码器的重建误差有所下降。

全部评论 (0)

还没有任何评论哟~