论文--阅读翻译笔记-Reducing the Dimensionality of Data with Neural Networks
摘要:
经过对小型中间层的人工神经网络进行训练,并确保其神经元数量低于输入空间维度时
主成分分析(Principal Component Analysis, PCA)是一种经典的降维方法。该技术通过正交变换法将一组可能存在高度相关性的原始变量转化为一组线性不相关的新的变量集合(尽可能多地保留原始数据的信息),这些新生成的变量则被称为主成分。
识别出数据集中的主元方向,并通过其坐标及其主元偏差的方向来表示每个数据点(data point)。
*/
内容:
维度缩减技术在分类、可视化分析、信息通信以及高维数据存储等领域展现出显著的应用价值。其中一种广泛采用的线性降_dim_方法是主成分分析(PCA)技术。该方法通过识别数据集中的最大方差方向来实现降_dim_目标,并将其映射到由这些主要方向构建的新坐标系中,并完成这一过程。然而,在实际应用中 PCA 方法存在一定的局限性:其假设样本分布服从多元正态分布等复杂限制条件;此外 PCA 的解码过程仅能恢复出一个线性的低_秩_近似结果而无法有效恢复原始非线性的细节特征;基于此本文提出了一种 novel 非线性扩展算法框架:该框架采用了一个自适应的多层自动编码网络结构来实现高_维度 数据集 压缩 为低 维度 表示;同时通过类似的解码网络将该低 维度 表示 还原 回原始 高_维度 数据
第一步,在这两个网络之间设定权值参数时采用随机初始化的方法;随后,在最小化重构误差与原始数据之间差异的过程中完成权值参数的优化工作。接着,在运用反向传播算法计算误差梯度的过程中生成梯度信息;具体而言,则是将误差梯度依次传递给解码网络层以及编码网络层完成梯度累积的过程;最终所构建的整体体系结构则被统称为自编码器模型;如图1所示

在图1中进行预训练的过程中,默认情况下即通过一系列受限玻尔兹曼机(RBM)进行学习。每个RBM仅包含一层特征提取器,并将前一阶段 trained RBM提取出的特征会被作为下一阶段 training 的输入数据。完成这一系列预训练任务后将这些RBM串联起来构建一个深度自编码器结构,并通过计算误差梯度反向传播到整个网络中以实现对整个深度自编码器模型(Deep Autoencoder, AE)的有效微调优化过程
多层(2-4层)隐藏单元的非线性自编码器在权值初始化方面存在一定的挑战。具体而言,在某些情况下由于网络具有较多参数导致优化变得困难:当初始权重较大时容易陷入局部最优解;而当初始权重较小时,在前几层中梯度下降较为缓慢甚至停滞;因此可能需要增加隐层的数量才能使模型收敛到全局最优解。然而即使如此若希望快速收敛并找到理想的初始化参数仍然面临诸多难题:传统的贪心预训练方法通过分阶段学习的方式能够有效改善这一情况:例如通过预训练处理可以在不显著影响后续训练效率的前提下获得一个接近全局最优的起始点参数集。这种贪心算法不仅简化了整体优化过程还显著提高了模型性能表现效果良好并能推广至真实数据集如图像、文本等类型的数据集上并且验证其有效性
一种二值向量(例如图像)可以通过两层网络(相当于RBM)来进行重构。基于RBM模型(文献5、6)中,通过对称加权连接方式将随机二值像素点与随机二值特征检测器进行关联。这些像素点被视为RBM的可观察单元(因为它们是可见的),而这些特征检测器则被视为隐藏单元。可观察单元与隐藏单元组成的联合系统(v,h)之间的能量关系由以下公式表示:

网络利用能量函数为每个可能的图像赋予概率值,请参考公式(8)中的说明。通过调节权重参数及偏差项的方式,在提升训练样本出现几率的同时降低了图像的能量水平,并增强了类似生成样本(这些样本由模型认为接近真实数据或实际数据)的能量。对于每张训练图像来说,请关注其各个特征探测子j所对应的二元状态
网络利用能量函数为每个可能的图像赋予概率值,请参考公式(8)中的说明。通过调节权重参数及偏差项的方式,在提升训练样本出现几率的同时降低了图像的能量水平,并增强了类似生成样本(这些样本由模型认为接近真实数据或实际数据)的能量。对于每张训练图像来说,请关注其各个特征探测子j所对应的二元状态

**以

的概率**被设为1,其中σ是逻辑函数sigmod=

,bj为j所具有的偏置量;vi代表像素i的状态信息;wij表示像素i与像素j之间的连接强度。一旦隐层神经元决定二值状态,则每个vi将依据

在该网络模型中将输入向量X的概率值设为1从而导致生成一个"重构"在此时情况下隐层节点被重新计算其权重参数这一过程从而使得隐层节点反映了重构的关键特性而权重的变化则由以下数学表达式所描述:
W = f(X)
其中W代表权重矩阵f代表激活函数X代表输入向量

,其中ε是学习率。
单一层次的二值网络无法充分模拟大量数据集的变化特征。因此通常采用多层架构以适应复杂的模式分布。将第一层网络的输出传递给第二层作为输入,则能够使下一层RBM获得更为丰富的表征信息。这种逐级构建的学习机制具有灵活性,在实际应用中可灵活调整深度需求。研究证明,在每新增一层时总能提升数据生成概率下限这一指标(假设每层特征检测子的数量保持不变且初始权重配置得当(9))。此外随着网络层数逐渐增多其表征能力也会相应增强最终能够提取出比前一层更加抽象与高阶的空间特征。经过多轮预训练后随后通过全局微调进一步优化权重参数使得自编码器模型在重建过程中达到最佳性能状态
一旦网络完成预训练过程后,在构建整个系统架构之前,请恢复并重新配置解码器与编码器组件以完成整合工作。随后,在微调过程中使用真实数据作为样本标签来优化网络参数
面对连续的数据样本,在第一个受限玻尔兹曼机(RBM)中, 其隐含层仍采用二进制表示, 然而, 其可视化的单个单元则由带有高斯白噪声的一阶线性变换生成. 假设该高斯分布具有单位方差, 则隐含层单元的更新策略与之前一致. 每个可视化的单个单元都是从一个均值为零、方差为一的高斯分布中随机采样得到.

的平均值。
但该下界在高层节点减少的情况下无法应用。然而,在深度自编码网络权值预训练方面,并非逐层学习算法不可行。各隐藏层从上一层输出中提取出更为高阶(更加抽象)的特征。对于较为广泛的 datasets而言,在逐步揭示低维、非线性结构方面,则是一种有效的方法。
在实验过程中, 每个 RBM 的可见层中的神经元都具有介于 0 到 1 的真实数值作为激活度; 对于上一层构造出的 RBM 来说, 其可视化 layer 神经元对应于上一层 RBM 的隐藏 layer 神经元活动的概率; 除了顶层的那个外, 其余层次上的 RBM 隐藏 layer 神经元被随机设定为了二进制数值; 而位于最顶层的那个 RBM 隐藏 layer 神经元则被赋予了连续实数状态, 该噪声源具有均值由当前可见 layer 输出所决定, 并且服从单位方差分布; 相比于主成分分析法, 本算法更有效地利用了连续变量特性; 预训练过程按照标准步骤执行, 微调网络参数则采用梯度下降优化方法进行调整; 实验结果表明该算法在收敛速度和精度方面均有显著提升
交叉熵误差公式如下:

其中,pi是输入数据的重构值。
面对连续型数据,在RBM模型中设计了一种特殊的结构:其隐层节点采用二元随机变量表示;而显层节点则采用了带高斯噪声的线性单元进行替代(具体参数如公式10所示)。当输入数据具有单位方差特性(即均值为零、方差为1),该模型在隐层节点更新规则上与前一层保持一致;而对于显层节点i而言,则遵循均值为bj加上所有隐层节点hj与其对应的权重系数Wij之和这一参数设置下的高斯分布规律。为了保证网络性能,在每层RBM模型中都进行了归一化处理后输出结果;这些输出结果将作为后续各层RBM网络采用前一层输出的概率值作为输入
当训练更高层次的受限玻尔兹曼机(RBM),该层次RBM的可见层节点设置为其上一层RBM隐层节点激活强度(实数值)。除顶层RB除外, 每个RB的所有隐层节点均为随机布尔值. 顶层RB的所有隐层节点作为随机变量服从均值由本RB可见层输入决定、方差为1的标准正态分布. 这就使得低维编码(low-dimensionalcodes)能够更好地利用连续变量, 并且便于与主成分分析(PCA)进行比较.
实验:
在经过精心设计的人工合成数据集上训练了一个特定的深度编码器模型。该合成数据集具有明确的真实固有维度,并且其像素强度与六个可调节参数之间的关系呈现高度非线性特征。其中每个像素强度值被限制在0到1之间,并呈现出一种复杂的、非高斯分布模式。
自编码网络构成一个包含(28×28)输入层、隐藏层序列499个神经元、输出层同样为(28×28)结构以及解码器部分组成的体系架构。该体系架构中的编码层由6个线性单元构成,并采用二进制性质(即逻辑单元)作为其余所有节点的设计特点。该自编码器成功实现了从包含784个像素图像数据压缩到仅6维表示空间并实现高度还原效果的能力。
若无预训练阶段,则该深度自编码网络只能达到数据平均水平(效果一般)。单隐层的浅层自编码器无需预训练即可学习特征,但经过预训练后可显著降低了 training time. 数据与 code 间仅含一层隐含层的浅层 autoencoder 可无需 pre-training 即可学习特征, 而 pre-training 则能大幅降低 autoencoder 的 training time. 当 model parameters 数量相等时, 深度 autoencoder 相较于 shallow autoencoder 在测试数据上的 reconstruction error 显然更低, 但这种优势随着 parameters 的增长而逐渐减弱.
当前时代背景下所提出的三种方案均已完成验证工作。相较于基于非参数模型的研究(参考文献15,16),本研究中的自编码网络体系不仅实现了数据方向性映射能力的同时还建立了完整的编码空间映射框架。该方法适用于处理极大规模的数据集,在实际应用中展现出良好的扩展性能特点:随着训练样本数量的增长,在时间和空间维度上的预训练与微调规模呈现出线性的扩展趋势
基于深度学习的混合恶意代码检测方法
在本文中,我们提出了一种名为AutoEncoder的混合型恶意代码检测方案并结合深度信念网络(DBN)进行分析。本文提出了一种名为AutoEncoder的混合型恶意代码检测方案,并结合深度信念网络(DBN)进行分析。首先,我们深入应用AutoEncoder的学习机制以降低数据维度这一过程可能导致计算复杂度增加。其次,通过非线性变换将高维数据映射到低维空间中以提取关键特征,并利用多层限制玻尔兹曼机(RBM)进行无监督预训练以获取潜在表示;接着采用BP神经网络进行有监督训练以完成恶意代码识别任务
在之后的过程中, 将最后一层 Restricted Boltzmann Machine (RBM) 的特征向量作为 BP 神经网络的输入向量, 对 BP 神经网络进行了有监督学习训练. 最终实现了整个神经网络的最佳微调. 将测试样本输入到混合模型中后, 实验结果表明, 混合检测所获得的检测精度较之于本文提出的方法要更高. 这种方法不仅降低了时间复杂度而且在检测性能方面表现更为突出.
该研究结合谱聚类(SC)与深度神经网络(DNN),开发了一种集成算法用于传感器网络中的入侵检测系统。同时采用了自监督学习中的自动编码器技术。其中,在深度神经网络中采用自监督学习策略——预训练(Pre-Training)和微调(Fine-Tuning)——以提升异常流量检测能力。
