深度学习论文理解2:on random weights and unsupervised feature learning
这篇论文是斯坦福大学Andrew Ng领导的研究团队于2010年完成的作品;令人感到奇怪的是,在线资源上存在两个版本的该论文,并行发布于不同平台
一:本文想法来源
该方法在目标识别任务中展现出良好的性能,并且通过未经过预先训练的权重特征学习机制实现了较高的准确性。其中,在Caltech 101数据集上,仅使用随机权重即可达到53%的准确率;而采用无监督预训练结合微调优化的方法则实现了54.2%的准确率。相比之下,在同样的条件下进行无监督预训练和微调能够获得更高的准确率
基于此提出两个问题:
1:为什么随机权值有时会有这么好的结果
2:pretraining +finetuning的贡献是什么?
本文结构和结论:
1.介绍本文的C-P(Convolution and Pooling)
2.通过定理实验证明C-P结构具有以下特性:对于特征而言存在选择性和形变的不变性;即使在随机权值设定下依然成立。
基于实验数据表明,在实际应用中发现pre training与fine tuning策略与随机权重初始化之间存在显著的关系:其中大多数情况下(即95%以上),它们之间的高度相关性表明前者有助于提升后者的表现。此外,在具体实现过程中发现该策略能够显著提高模型的收敛速度与预测准确性。这些观察进一步证实了构建优质模型架构的关键性
基于第3步的结论可以看出,可以通过随机权重的方法来评估网络结构的表现如何。从而节省时间后筛选出性能最优的网络结构,并通过预训练与微调结合的方式进一步提升分类效果。
二.C-P结构

卷积方式:通过k*k的filters来卷积原始输入图像,得到卷积后的特征图;
Pooling方法:本文未使用均值池化或最大池化技术;相反地, 本研究采用了通过先计算各元素的平方值并累加来实现的方法。
卷积方式主要关注特定输入特征的选择问题,在面对输入的小尺度变形时具有较强的抗性;通过整合卷积操作与池化操作形成C-P结构后,则能够同时具备特征选择能力和变形的不变性。
三.理想输入的特点
Jarrett通过数值求导过程发现,理想的输入通常是由正弦波组成的,并且能够耐变形;在寻找随机权重偏好下的理想输入时,他研究了c-p结构.
结构偏好的输入特征最适于使P层单元达到最大激活程度。因为P层保持了其几何特性的一致性这一特点,在这种情况下理想的输入应由一类具有极微几何变形但又保持形态相似度的特征组成。
直观上而言,在c-p结构中表现出抗性变性的现象是因为p层材料易于获取;对于特征的选择性问题上我们推测:所选特征的选择特性应与网络中的filter选择特性具有相似性。具体而言,在网络中如果filter具有高度选择特性,则理想输入信号应接近于正弦信号的形式;反之若filter为离散、随机类型则相应的理想输入信号也应呈现离散、随机特征。然而这种直觉观点存在明显偏差:不论滤波器是什么样的其偏好的理想输入都是趋向于近似的正弦信号形式
为了验证这一结论,作者探讨了valid卷积与circular卷积两种不同情况,并运用傅里叶变换(能够将满足特定条件的函数分解为三角函数(正弦和/或余弦函数)及其积分的线性组合)提出了两个理论.反复阅读后仍未能完全理解其内涵;因此决定仅作简要汇报.
这一部分的公式揭示了circular Convolution和square pooling构成的结构两大核心特征。
1).理想输入的“频率”是filter中“频率”值最大的,所以结构具有“频率”选择性。
The occurrence rate of the optimal input corresponds to the peak value within the filter f's response curve.
2). 由于上式中φ为指定,所以具有抗形变性.
2.1circular卷积的理想输入是近似最理想的,对于一般卷积

该研究计算出circular卷积的理想输入(how the calculation occurs, I'm unclear)。由于circular convolution与valid convolution仅在边界区域存在差异(due to differences in boundary handling),因此我们预期circular卷积的理想输入应与valid卷积的理想输入相同(similar)。通过理论分析与实证研究表明两者相互接近(through theoretical analysis and empirical evidence they are close)。如图所示,在使用相同滤波器时两个版本的论文分别展示了不同的对比效果图(two versions of papers show different contrast plots),并且两者对应的理想输入具有相似性(similar inputs)。


该卷积结合平方池化机制,在滤波器中对高频信息的关注表现出良好的特性;这一特性适用于所有类型的滤波器;因此,在实际应用中选择随机化的滤波器同样能够取得较好的效果。
众所周知,
频率选择性和抗形变性,
构成识别问题的两大要素,
许多识别系统采用人工设计的滤波器(Gabor filters)来实现这两项特性,
然而,
这种特意设计的滤波器在基于卷积加平方池化(convolution + square pooling)的设计框架中并非必需;
在C-P结构中,
即使使用随机选取的方式获取filter也能达到与前述方法相仿的效果。
2.2卷积效果评价
在多种网络架构中进行分析与比较,在涉及的11种不同的网络架构下研究其性能表现;其中采用的滤波器尺寸集合为4×4、8×8、12×12、以及16×16的滤波器尺寸集合;同时考虑了池化核尺寸集合为3×3、5×5以及9×9的不同配置;此外还设置了滤波器间距设置为单值间距与双值间距两种情况;
实验结果显示出,在使用随机权重时,卷积网络的表现优于非卷积网络体系结构(作者并未明确说明非卷积网络的具体特性);此外还发现,在遵循不同分布类型(如均值、正态分布等)的前提下(前提是这些分布的核心位置为零),随机权重的选择不会显著影响分类性能。
最后值得注意的是作者观察到,在深度学习模型中非卷积架构相比那些使用序列化像素结构的方法表现出更好的性能。此外一些其他的混合卷积-非卷递架构同样展现出良好的分类效果这些现象可能与这些特定架构特有的特性有关例如滤波器的位置设置以及其内部的非线性转换机制等特殊的配置参数共同作用下才得以实现
四.pretraining和fine tuning的贡献
本文利用TICA算法进行pretraining,并采用L-BFGS算法完成fine tuning工作。经过80次迭代后观察模型收敛情况。结果显示……良好的网络架构是影响分类效果的主要因素……实验表明……只有在建立良好网络架构的前提下……模型性能才能得到显著提升
五.快速地选择结构
因为随机权值神经网络与训练权值之间的分类关系呈正相关性,并且两者均受网络结构的影响,在评估一个神经网络的结果时,可采用基于随机权重神经网络计算得到的平均分类精度作为初步评估指标,并选取表现最优的神经元拓扑配置作为最佳选择。
六.区别结构和学习的贡献
本文表明当前最优特征学习系统的成果主要归因于它们的架构设计。借助表格分析,在NORB数据集上的测试结果显示卷积网络普遍表现优异,这凸显了网络架构的重要性。
我的一些疑惑和理解:
本文并未像其他研究那样深入探讨一个理想化的网络架构;而是侧重于评估学习算法与卷积神经网络各自的特性;从而为我们提供了一种快速选择最优网络的方法;即通过随机生成多个网络架构并计算其平均分类准确率;并以该平均值作为选择该类最优架构的标准
- 基于实验结果表明, 卷积神经网络中的C-P架构在保持特征完整性方面具有重要意义, 而预训练与微调技术的作用更多体现在性能提升的辅助优化层面; 研究表明选择合适的架构至关重要
本文对随机权值学习与预训练优化结合(Pretraining+finetuning)的学习效果进行了对比研究,并未涉及纯监督学习的情形。直观上来看,分类器性能应该介于二者之间。但个人认为有必要深入探讨这三种不同的训练策略:随机权重初始化、监督学习以及预训练微调(Pretraining+finetuning)之间的关系。值得进一步探讨的是,在相同网络架构下分析这三种不同的训练策略:随机权重初始化、监督学习以及预训练微调(Pretraining+finetuning)之间的关系。类似地,在之前的综述中提到过:当数据规模逐渐增大时,在固定网络结构下随机权重初始化的学习曲线呈现较快的收敛速度;相比之下,在同样条件下采用监督学习方法则收敛较慢但表现更为稳定;至于预训练优化结合的方法(Pretraining+finetuning),其收敛性与数据量之间的关系仍需进一步探讨
4. 本文提出的C-P网络架构通过卷积操作后应用平方运算。\n
此方法有助于提升模型的非线性表现。\n
此设计能够有效避免均值-方差(mean-p)的正负抵消问题。\n
建议在结构中加入局部归一化层以改善表现。\n
值得注意的是平方运算可能导致数据方差增大从而影响泛化能力(个人推测)。\n
