Advertisement

论文笔记:Grid Long Short-Term Memory

阅读量:

Grid Long Short-Term Memory


该文引入了Grid LSTM技术,并通过LSTM单元构建多维网格结构;这种网格结构不仅能够处理向量数据以及序列数据,并且还适用于更高维度的数据类型(如图像)。
该论文由Google DeepMind公司发表;
因此提供了一种统一的方法用于深层和序列计算;
该研究旨在通过设计多层次的LSTM隐层单元来构建网络架构;从而实现对复杂数据模式的有效捕捉与学习。

本文首先阐述了LSTM的基本原理,并逐步深入探讨其扩展形式。随后介绍了堆叠型LSTM及其在三维空间中的应用。最终转向讨论网格型LSTM在多维数据处理中的优势。在本研究涉及的序列预测任务中,其中网络架构被设定为二维结构:一个是时间序列本身作为一维信息源;另一个维度则沿着深度方向展开以捕捉多层次特征。这些单元内的数值无法像传统的多元型LSTM那样简单地结合在一起;后续将深入分析这些单元是如何整合参数机制以实现复杂操作的过程。

主要结构:

这里写图片描述
这里写图片描述
这里写图片描述

Grid LSTM与multi LSTM具有相同的结构,在每一个N维块中都会接收N个隐层向量以及对应的N个记忆向量作为输入。然而,在其输出结果上存在显著差异性:Grid LSTM块的输出结果更为明确且具有确定性。

这里写图片描述

如果存在一个一维向量有助于评估整个模型,则保留该向量;仅对其他维度计算输出并将其组合成一个新的向量。
某些维度无需进行LSTM训练,在激活函数作用后仅作为象征性连接层存在,对实际功能并无贡献。

将多个边同时作为输入处理。假设有N条边,每条边都有对应的输入向量和输出向量;这些网格中的每条边都接受或与之相关的外部信息;该机制通过确保各独立节点间的紧密联系实现了不同子网络之间的信息传递;在此神经机器翻译模型中,默认情况下将源语言单词(words)和目标语言单词分别从网格的不同侧面进行编码

权重共享机制
能够有效消除某些难以改变的因素,在机器翻译或者图像处理模型中,
如果Grid的多个Sides需要共享Weights,
则可以通过引入Grid的一个新维度来实现这一目标,
而不必依赖于传统的共享Weights方法。

实验

本文首先在其设计的三个算法任务中展开了实验研究;随后,在其实际应用场景中的三个具体任务上展开实证研究。其中涉及字符预测、机器翻译以及数字图像分类等技术(其中数字图像分类部分可自行实现)。

全部评论 (0)

还没有任何评论哟~