【论文阅读】Distributed Representation of Sentence and Document

阅读量：

Abstract

传统的单词模型（bag-of-words）在实际应用中有一些缺点：

We find that losing word order has a negative impact.
They fail to account for word semantics.

鉴于此，在此基础上

Introduction

目前广泛应用于Text classification和clustering领域的研究与实践中，该方法被广泛采用作为分类与聚类的核心工具，由于这种表示方法简便，并且在实际应用中显示出良好的性能。

即为一种将单个单词转换为独热编码的技术。假设词典中共包含 $1\times 1$ 个不同的词汇（注意：此处应替换为具体数值），例如，在词汇表中的某一个特定词汇具有索引值 $2^{2}$ （此处应替换具体数值），则该单词会被表示为一个长度为 $2^{2}$ 的向量序列，在该序列的第 $2^{2}$ 位上赋值为 $2^{2}$ （此处应替换具体数值），其余各位均为 $2^{2}$ （此处应替换具体数值）。

bag-of-word模型由于其特定的表现形式而导致无法捕捉到词语之间的关联性，在这种情况下也就不具备对词语语义联系进行反映的能力；因此会出现两个词语在语义上有近有远却在模型中却拥有相同距离的现象。

本文提出了Paragraph Vector（PV）框架。该方法能够通过从可变长度的输入文本片段中学习其语义特征。

所学出来的PV学习所得的多种用途在于，在给定上下文信息和一系列词语序列的基础上能够预判下一步出现的词语。

本文提出的PV思想源自于词向量（word representation）这一研究领域的创新成果，在其学习过程中的研究中。在学习过程中的每一步中，每一个单词通过构建其独特的表示来进行计算，并将其与其他单词在其语境中的表示进行拼接或平均处理。

本文在Word Vector（WV）的基础上，在原有词汇的基础上扩大了词汇范围，并构建了 PV 体系；而从 WV 到 PV 则主要有两种方式

通过计算所有文档中词的加权平均来生成表示 PV 是一种较为直接的方法。然而需要注意的是这种方法可能导致无法保留词语在其语境中的顺序信息。
将词向量按照句法树的层次结构进行结合这种方法相对来说更为复杂其核心思想是根据词语出现频率构建层次化的语法结构。

PV具备较长长度的数据序列的特征提取能力。实验结果表明，在文本片段的特征提取方面，PV能够显著提升。

Algorithm

Learning Vector Representation of Words

这部分阐述了传统形成词向量的方式。其主要任务是根据给定语境中的某些词汇预测下一个词汇。

框架的原理就不翻译了，直接放上原文：

In this framework, each word is assigned to a distinct vector, represented by a column in matrix W. The column is indexed by the index of the word within the vocabulary. Element-wise multiplication or summation of these vectors provides insights into predicting subsequent words within sequential data structures.

主要思路在于将每个单词转换为相应的向量表示，并采用结合或取平均的方法生成新的向量值。随后将其计算结果会被输入到一个softmax分类器中以预测下一个可能的单词。在实际操作过程中我们会发现当词汇表规模极大时计算开销显著增加因此常用的方法是构建一棵分层的二叉哈夫曼树结构其中叶子节点对应词汇表中的各个词汇而内部节点则负责进行多次二分类运算最终输出的是整个词汇表中每一个词汇的概率分布

该框架采用了SGD算法（stochastic gradient descent），并结合BP算法（backpropagation）来进行梯度计算和模型参数更新。经过训练后所得的模型其主要功能是衡量两个词汇之间的语义距离。当这两个词汇在语义上相似时，在向量空间中它们的位置会较为接近；相反地，在语义上相异时，则会在空间中远离。

词向量在自然语言处理方面的应用范围很广。

Paragraph Vector：A Distributed memory model

这部分阐述了本文提及PV框架的具体内容；作者采用了词向量生成方法，并通过类比推理得出了PV的相关生成方法。

PV框架的一些细节，不好翻译，放上原文：

Within our Paragraph Vector framework (as shown in Figure 2), each paragraph is assigned a distinct vector, denoted as an individual column within matrix D, while each word is similarly assigned its own unique vector, indicated by columns within matrix W. To predict the subsequent word within a given context, the corresponding paragraph vector and individual word vectors are either averaged or concatenated. During our experimental trials, concatenation was identified as an effective method for combining these vectors.

PV与WV之间的区别很显著，在这种情况下PV相较于WV多引入了额外的一个矩阵D作为补充部分。该矩阵D充当了对输入上下文信息进行存储的关键机制角色，并因此被命名为用于区分两者的模型架构为PV-DM形式。

需要注意的是，在不同的语境下（context），W矩阵是可以共享（shared）的；然而,D会随处理的不同语境（context）而有所变化（vary）。它们无法在段落之间（section）共享（share），换言之，在哪个预测场景（scenario）下就使用该场景对应的D。

该框架采用了与WV相同的训练方法，并均采用SGD算法进行优化。通过反向传播算法计算并更新模型参数。

在预测阶段中，在对一个新的段落进行分析时，则需要首先生成相应的矩阵D

该框架的参数总共有Np+Mq,N表示在语料中有多少个段落，M表示词汇量。

After the training is completed, the PV has several key functions: We can input these characteristics into commonly used machine learning methods such as logistic regression, support vector machines, or K-means clustering algorithms.

总体而言，该算法的两大核心环节包括：借助非监督学习方法获得变量W的值以及利用推断技术获取变量D的值。

PV的优势在于：

如同Word Vector方法一样，它不仅能够反映两词之间的语义关联性，并且表明其向量间的距离也会较为接近。
该系统通过taking into account单词的位置关系（word order），从而使得PV能够更加准确地捕捉到文本中的语义信息。
无需大量的标注信息即可完成训练过程。

Paragraph Vector without word ordering: Distributed bag of words

就像WV所包含的CBOW与Skip-gram两种架构相似,PV则提供了一种相对应的竞争性设计.其核心任务即在于实现对目标单词序列的预测功能.具体而言在每一次训练迭代阶段中,PV能够直接生成目标单词.从实际效果来看这一机制相较于前一版本所需参数数量有所减少仅需存储与softmax相关联的部分即可完成运算流程

实验数据显示，在每一个PV单元中应用两种模型学习获得的向量进行融合时的效果优于单独采用任一模型所得的结果。

Experiments

该部分详细阐述了作者如何将文中所提及的两种模型应用于真实场景中利用这些模型进行情感分类以及关键词提取并取得了显著成效。

基于Stanford Sentiment Treebank数据集进行实验的结果表明

针对IMDB dataset上的实验结果显示：某些传统方法仅局限于局部范围内的应用（即只能处理单个句子），而当面对段落或整篇文档时其效果显著下降。本文提出的方法（即PV）能够有效解决此类问题的原因在于无需进行复杂的句子解析工作。值得注意的是，在这个基于电影评论的数据集中（label分为{Positive, Negative}两类），PV的表现令人瞩目——其在该数据集上的实验结果显示错误率为7.24%，这一性能表现优于所列出的所有现有方法。

在信息检索上的实验结果 ：信息检索工作主要指的是从海量数据中识别出能够关联到与查询项高度相关的若干记录。在训练过程中我们采用了三元组方法即为每个训练样本生成一个相关性较高的同源样本并随机选择一个样本以避免来自同一领域或主题的查询词生成的对象。随后我们通过PV分别计算该对象与其他两个样本之间的距离以期实现以下目标：能够使具有相同语义特征的不同查询项与其对应的PV之间的距离显著缩短而不应使具有不同语义特征的不同查询项与其对应的PV之间的距离拉大。此外我们对所提出的改进方法进行了多轮实验测试最终验证显示其优势尤为明显错误率达到了令人满意的3.82%

全部评论 (0)

还没有任何评论哟~

【论文阅读】Distributed Representation of Sentence and Document

Abstract 传统的单词模型（bagofwords）在实际应用中有一些缺点： 1.Theylosetheorderingofthewords，丢失了单词的顺序。 2.Theyignoreseman...

【论文笔记】A model of coherence based on Distributed Sentence Representation

基于连贯性任务的句子向量表示这篇文章想找出一种高效的句子的向量表示使用了文章连贯性的任务来训练对比了两种句子向量表示 RecurrentSentenceRepresentation:就是正常的循...

[NLP论文阅读]Distributed Representations of Sentences and Documents

对CBOW模型和Skipgram模型的介绍首先，需要先介绍一下Mikolov另一篇文章中提出的CBOW模型和Skipgram模型。 CBOW模型可以看做是一个三层结构：输入层input：输入为Co...

Distributed Representation of Words and Phrases and their Compositionality

Abstract Skipgram模型是一个学习高质量的词分布向量表示的方法，这个向量可以捕获许多细微的语法和语义关系。在本文将提出一些策略用来提高训练的词向量的质量和提高训练速度。

论文阅读笔记-On Explainable and Adaptable Detection of Distributed Denial-of-Service Traffic

文章目录前言 4\.DESIGN 4.2Explainability&ManualIntervention 4.2.1RiskProfile 4.2.2VisualizedKNNModel可视化KN...

【论文阅读】Exploring Sentence Community for Document-Level Event Extraction EMNLP2021

目录摘要简介本文贡献：模型方法篇章图表示句子社区检测事件类型和论元分类实验和结果总结摘要已有的方法基于sequentialmodeling（序列模型），忽视长文章中的复杂逻辑结构...

读论文《Distributed Representations of Words and Phrases and their Compositionality》

读论文《DistributedRepresentationsofWordsandPhrasesandtheirCompositionality》 introduce 这篇论文是对《EfficientE...

论文阅读Inter-sentence Relation Extraction with Document-levelGraph Convolutional Neural Network

简略本文介绍了一种基于GCNN的RE方法，作者把单词作为节点，依存关系，共指关系等关系信息作为边连接，接着使用带有标签的GCNN对建立的图提取特征，采用基于多实例学习MIL的分类方案，最终使用bia...

[NLP论文阅读] Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning

论文原文：DiscourseBasedObjectivesforFastUnsupervisedSentenceRepresentationLearning 引言这篇文章的想法很有意思，为了学习到更...

Distributed Representations of Sentences and Documents阅读笔记

论文原文DistributedRepresentationsofSentencesandDocuments 论文信息ICML2014 论文解读HytnChen&Pvop 更新时间20200203 句子...

是否确定退出登录?

【论文阅读】Distributed Representation of Sentence and Document

Abstract

Introduction

Algorithm

Learning Vector Representation of Words

Paragraph Vector：A Distributed memory model

Paragraph Vector without word ordering: Distributed bag of words

Experiments

全部评论 (0)

相关文章推荐

【论文阅读】Distributed Representation of Sentence and Document

【论文笔记】A model of coherence based on Distributed Sentence Representation

[NLP论文阅读]Distributed Representations of Sentences and Documents

Distributed Representation of Words and Phrases and their Compositionality

论文阅读笔记-On Explainable and Adaptable Detection of Distributed Denial-of-Service Traffic

【论文阅读】Exploring Sentence Community for Document-Level Event Extraction EMNLP2021

读论文《Distributed Representations of Words and Phrases and their Compositionality》

论文阅读Inter-sentence Relation Extraction with Document-levelGraph Convolutional Neural Network

[NLP论文阅读] Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning

Distributed Representations of Sentences and Documents阅读笔记