Distributed Representations of Sentences and Documents阅读笔记
| 论文原文 | Distributed Representations of Sentences and Documents |
|---|---|
| 论文信息 | ICML2014 |
| 论文解读 | Hytn Chen & Pvop |
| 更新时间 | 2020-02-03 |
句子分布式表示简介
句子的分布式表达:通过固定长度的向量来表征一句话,在这种情况下这些向量通常具有很高的维度。因此这些向量也可以被视为将这句话嵌入到高维空间中去的技术也被称为句嵌入技术。
句子分布式表示相关方法
基于统计的句子分布式表示
被称为词袋模型的一种方法,并被广泛应用于自然语言处理领域。同时包括n-gram模型的应用分析。这两个基本的方法能够有效地提取语义信息,并被广泛应用于自然语言处理领域中。目前网络上已有大量详细解析的文章
基于深度学习的句子分布式表示
有加权平均法以及深度学习模型。
加权平均法
即为将学习获得的每一种词语的向量经过适当的赋予权重后进行综合计算而形成由这些词语所构成的语句的分布式表达方式
另外一种改进方法则是对每一个词语赋予特定权重,在本研究中我们采用TF-IDF算法来进行权重计算这一策略能够有效反映出词语在语料库中的重要程度以及其独特性
深度学习模型
该方法基于现有的词向量学习机制来生成词向量表示;随后将这些词向量输入至深度神经网络中进行进一步的学习与优化,最终获得句子的分布式语义表达;这类结构统一训练的学习框架通常被称为'端到端模型'。其核心特点是通过联合优化所有参数实现整体性能提升。
基于语言模型的词向量训练
语言模型能够计算出由多个词组成的句子的概率:
P(s)=\prod_{i=1}^{T} P\left(w_{i}\right)
而每个词的概率则被建模为n-gram形式,并且仅与前n-1个相关的词汇有关:
P\left(w_{t}\right)=P\left(w_{t} | w_{t-n+1}^{t-1}\right)
评估语言模型性能的重要指标是困惑度:
PP(s)=\sqrt[T]{1/P(s)}
其中n表示n-gram的阶数。
P P(S)=e^{-\frac{1}{T} \sum_{i=1}^{T} logP\left(w_{i}\right)}
论文整体框架
这篇论文的背景源于词向量表示提出之后,在这一背景下,许多研究人员转而致力于句向量的表示问题,并开发出了多种途径来生成句向量。
论文结构
论文主要包含以下几个主要部分:摘要部分、引言部分、词向量技术基础、词分布表示模型、实验设计与方法部分、实验结果分析以及相关研究领域回顾和结论总结
从摘要看框架
文章的摘要大致可分为四个部分:
第一部分解释了句向量表示的概念和意义,见本文第一部分;
第二部分阐述了以往的句向量表示模型及其缺陷,并介绍了前文列出的相关方法。
第三部分讲述了本文提出的模型以及该模型的优点;
第四部分阐述了本文所提出模型的效果。
传统模型详解

上图源自论文《A Neural Probabilistic Language Model》,其算法包括了如下几个步骤:
为每个单词随机初始化其对应的word_vector;随后通过one-hot编码的方式生成一个独热编码向量;接着利用该独热编码向量与预定义矩阵相乘;最终从所得结果中获取对应单词的word_vector;其中该预定义矩阵具有大小为vocab×word_vector_dimension;
获取一句话中连续的n-1个词,并将这些词分别对应的词向量进行连接操作(concatenation),得到最终的向量表示e。
将输入设为e,并将其传递至一个具有单个隐层的人工神经网络;其中隐层使用tanh作为激活函数;输出层的神经元数量等于词汇表中不同词汇的数量。
这就是根据前n-1个词来预测当前词的模型。
论文提出的改进的新模型
本文提出的新模型称为分布式句向量训练模型 :

相较于上文所述的传统模型,在这篇论文中首次提出并运用了句向量矩阵这一创新概念。对于每一段话进行编码时,首先将其转换为对应的句向量表示;然后将该向量与该段话中前n-1个词的词向量进行融合计算,在此基础上预测第n个词的出现概率。在某些数据集上(如IMDB),作者采用了单隐层的神经网络架构;而对于其他数据集(如SST),则直接采用分类器而省去了隐藏层。这样处理后得到的效果就等同于仅使用逻辑回归模型来进行预测。
模型经过训练后所得的内容包括三个要素:即分类器所依赖的参数、一个用于表示句子结构的矩阵以及用于表示词语语义的空间。
最后将学习到的句向量用于分类器,来预测句子的类别概率。
在测试阶段中,则基于已训练完成的词向量矩阵W以及语言模型的相关参数,在新构建的测试集上重新生成句向量矩阵D并进行随机初始化。随后通过梯度下降算法对矩阵D进行训练以获取其最优值,在实际应用中需要注意的是,在测试时也需要对这些参数进行优化以解决存在的显著问题。
本文提出了一种思路:每个句子被映射至一个预设的随机初始化的句向量矩阵,并映射为一个固定的低维空间中的向量表示。随后,在反向传播过程中使用这些预设的低维空间中的向量表示进行预测(这一过程值得深入研究:反向传播训练后得到的这些语义表征是否能同时捕捉到这些关键词的意义?)。接着将这些优化后的语义表征输入到预先Fine-tuned的任务相关的分类器中进行概率预测。
实验及结果
数据集
两种常用的用于评测的数据集包括:一是由斯坦福大学开发的情感分析数据集SST ,其情感强度范围是0至1;二是由IMDB平台提供的平衡标注数据集, 包含各12500条正面和负面评论.
评价方法:基于情感值划分成五类或两类的数据集(如SST),其评价标准是作为预测情感类别(如SST中使用的)的标准;而IMDB数据集也同样采用这种标准来评估模型性能。
实验结果
实验证明,在SST数据集上进行比较分析后发现,在多项分类任务中(包括二项和五项),所提出的方法均表现最佳(达到最优性能水平)。

而在IMDB数据集上,本文的模型同样取得了SOTA结果。

