【论文阅读】Distributed Representation of Sentence and Document
Abstract
传统的单词模型(bag-of-words)在实际应用中有一些缺点:
- We find that losing word order has a negative impact.
- They fail to account for word semantics.
鉴于此,在此基础上
Introduction
目前广泛应用于Text classification和clustering领域的研究与实践中,该方法被广泛采用作为分类与聚类的核心工具,由于这种表示方法简便,并且在实际应用中显示出良好的性能。
即为一种将单个单词转换为独热编码的技术。假设词典中共包含1\times 1个不同的词汇(注意:此处应替换为具体数值),例如,在词汇表中的某一个特定词汇具有索引值2^{2}(此处应替换具体数值),则该单词会被表示为一个长度为2^{2}的向量序列,在该序列的第2^{2}位上赋值为2^{2}(此处应替换具体数值),其余各位均为2^{2}(此处应替换具体数值)。
bag-of-word模型由于其特定的表现形式而导致无法捕捉到词语之间的关联性,在这种情况下也就不具备对词语语义联系进行反映的能力;因此会出现两个词语在语义上有近有远却在模型中却拥有相同距离的现象。
本文提出了Paragraph Vector(PV)框架。该方法能够通过从可变长度的输入文本片段中学习其语义特征。
所学出来的PV学习所得的多种用途在于,在给定上下文信息和一系列词语序列的基础上能够预判下一步出现的词语。
本文提出的PV思想源自于词向量(word representation)这一研究领域的创新成果,在其学习过程中的研究中。在学习过程中的每一步中,每一个单词通过构建其独特的表示来进行计算,并将其与其他单词在其语境中的表示进行拼接或平均处理。
本文在Word Vector(WV)的基础上,在原有词汇的基础上扩大了词汇范围,并构建了 PV 体系;而从 WV 到 PV 则主要有两种方式
- 通过计算所有文档中词的加权平均来生成表示 PV 是一种较为直接的方法。然而需要注意的是这种方法可能导致无法保留词语在其语境中的顺序信息。
- 将词向量按照句法树的层次结构进行结合 这种方法相对来说更为复杂 其核心思想是根据词语出现频率构建层次化的语法结构。
PV具备较长长度的数据序列的特征提取能力。实验结果表明,在文本片段的特征提取方面,PV能够显著提升。
Algorithm
Learning Vector Representation of Words
这部分阐述了传统形成词向量的方式。其主要任务是根据给定语境中的某些词汇预测下一个词汇。
框架的原理就不翻译了,直接放上原文:
In this framework, each word is assigned to a distinct vector, represented by a column in matrix W. The column is indexed by the index of the word within the vocabulary. Element-wise multiplication or summation of these vectors provides insights into predicting subsequent words within sequential data structures.

主要思路在于将每个单词转换为相应的向量表示,并采用结合或取平均的方法生成新的向量值。随后将其计算结果会被输入到一个softmax分类器中以预测下一个可能的单词。在实际操作过程中我们会发现当词汇表规模极大时计算开销显著增加因此常用的方法是构建一棵分层的二叉哈夫曼树结构其中叶子节点对应词汇表中的各个词汇而内部节点则负责进行多次二分类运算最终输出的是整个词汇表中每一个词汇的概率分布
该框架采用了SGD算法(stochastic gradient descent),并结合BP算法(backpropagation)来进行梯度计算和模型参数更新。经过训练后所得的模型其主要功能是衡量两个词汇之间的语义距离。当这两个词汇在语义上相似时,在向量空间中它们的位置会较为接近;相反地,在语义上相异时,则会在空间中远离。
词向量在自然语言处理方面的应用范围很广。
Paragraph Vector:A Distributed memory model
这部分阐述了本文提及PV框架的具体内容;作者采用了词向量生成方法,并通过类比推理得出了PV的相关生成方法。
PV框架的一些细节,不好翻译,放上原文:
Within our Paragraph Vector framework (as shown in Figure 2), each paragraph is assigned a distinct vector, denoted as an individual column within matrix D, while each word is similarly assigned its own unique vector, indicated by columns within matrix W. To predict the subsequent word within a given context, the corresponding paragraph vector and individual word vectors are either averaged or concatenated. During our experimental trials, concatenation was identified as an effective method for combining these vectors.

PV与WV之间的区别很显著,在这种情况下PV相较于WV多引入了额外的一个矩阵D作为补充部分。该矩阵D充当了对输入上下文信息进行存储的关键机制角色,并因此被命名为用于区分两者的模型架构为PV-DM形式。
需要注意的是,在不同的语境下(context),W矩阵是可以共享(shared)的;然而,D会随处理的不同语境(context)而有所变化(vary)。它们无法在段落之间(section)共享(share),换言之,在哪个预测场景(scenario)下就使用该场景对应的D。
该框架采用了与WV相同的训练方法,并均采用SGD算法进行优化。通过反向传播算法计算并更新模型参数。
在预测阶段中,在对一个新的段落进行分析时,则需要首先生成相应的矩阵D
该框架的参数总共有Np+Mq,N表示在语料中有多少个段落,M表示词汇量。
After the training is completed, the PV has several key functions: We can input these characteristics into commonly used machine learning methods such as logistic regression, support vector machines, or K-means clustering algorithms.
总体而言,该算法的两大核心环节包括:借助非监督学习方法获得变量W的值以及利用推断技术获取变量D的值。
PV的优势在于:
- 如同Word Vector方法一样,它不仅能够反映两词之间的语义关联性,并且表明其向量间的距离也会较为接近。
- 该系统通过taking into account单词的位置关系(word order),从而使得PV能够更加准确地捕捉到文本中的语义信息。
- 无需大量的标注信息即可完成训练过程。
Paragraph Vector without word ordering: Distributed bag of words
就像WV所包含的CBOW与Skip-gram两种架构相似,PV则提供了一种相对应的竞争性设计.其核心任务即在于实现对目标单词序列的预测功能.具体而言在每一次训练迭代阶段中,PV能够直接生成目标单词.从实际效果来看这一机制相较于前一版本所需参数数量有所减少仅需存储与softmax相关联的部分即可完成运算流程

实验数据显示,在每一个PV单元中应用两种模型学习获得的向量进行融合时的效果优于单独采用任一模型所得的结果。
Experiments
该部分详细阐述了作者如何将文中所提及的两种模型应用于真实场景中利用这些模型进行情感分类以及关键词提取并取得了显著成效。
基于Stanford Sentiment Treebank数据集进行实验的结果表明
针对IMDB dataset上的实验结果显示:某些传统方法仅局限于局部范围内的应用(即只能处理单个句子),而当面对段落或整篇文档时其效果显著下降。本文提出的方法(即PV)能够有效解决此类问题的原因在于无需进行复杂的句子解析工作。值得注意的是,在这个基于电影评论的数据集中(label分为{Positive, Negative}两类),PV的表现令人瞩目——其在该数据集上的实验结果显示错误率为7.24%,这一性能表现优于所列出的所有现有方法。
在信息检索上的实验结果 :信息检索工作主要指的是从海量数据中识别出能够关联到与查询项高度相关的若干记录。在训练过程中我们采用了三元组方法即为每个训练样本生成一个相关性较高的同源样本并随机选择一个样本以避免来自同一领域或主题的查询词生成的对象。随后我们通过PV分别计算该对象与其他两个样本之间的距离以期实现以下目标:能够使具有相同语义特征的不同查询项与其对应的PV之间的距离显著缩短而不应使具有不同语义特征的不同查询项与其对应的PV之间的距离拉大。此外我们对所提出的改进方法进行了多轮实验测试最终验证显示其优势尤为明显错误率达到了令人满意的3.82%
