[NLP]论文笔记-A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS
A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS
这篇文章是我在学习 Stanford 的 CS224N 课程后的一篇推荐论文。slide中提到,在情感分析等依赖于句子整体含义的任务中,sentence embedding表现出显著的效果,并因此吸引了我的兴趣而选择了这篇论文进行深入研究。
在阅读这篇论文的过程中,我对 sentence embedding 的基本概念有了初步的理解。我认为生成一个有意义且精确的句子向量表示可以从以下几个方面入手:首先考虑文章长度(句长),其次关注文章中的关键词分布情况(组成句子的单词),最后还需考虑文章的语法树(parse tree)来捕捉复杂的语义关系。
从以下几个方面入手包括将单词嵌入和句法嵌入拼接作为神经网络的输入以生成句子嵌入。
在看完文章中的模型之后除了我在想的一些单词之外作者强调该模型对词序的依赖程度较低感觉上文提到这样有点类似于强调句式结构的重要性这一点我还不是很清楚具体含义。
总结而言这篇文章主要提出了一种无监督学习方法用于生成句子嵌入即通过加权机制对句子中的每个单词进行赋予权重从而计算得到整个句子对应的向量表示该方法在多个任务如文本相似度计算文本蕴含关系以及文本分类等方面表现优异文章重点介绍的是这种加权机制的相关细节后续会进行详细说明。
Abstraction
- 特点
无监督,对单词加权,词袋模型,与词序无关。
- 简介
Compute word embeddings through one widely-used technique applied to unlabeled data, such as Wikipedia, and then express these sentences as a weighted sum of the corresponding word vectors. Subsequently, apply dimensionality reduction techniques like PCA/SVD to these representations.
- theoretical explanation
employing a latent-variable generative model to represent the structure and semantics of text sequences, an extension that builds upon the work of Arora et al. TACL’16.
???问题:
允许出现一些虽然不在上下文中但出现频率很高的单词(allow for words occurring out of context, as well as high probabilities for words like and, not in all contexts.)
Introduction
- 起源
基于PPDB平台对标准word embedding进行调整,并开发一种word averaging模型用于生成sentence embedding。结果显示该方法具有较好的效果。然而由于这一调整过程限制了后续优化空间,在实际应用中传统的简单平均方法通常难以捕捉复杂的语义信息。
-
算法
-
计算过程:计算词向量集合的加权平均结果。
-
公共成分去除法:从平均向量集合在其主成分上的投影中去除这些投影。
单词 w 的权重(SIF):
其中 a 为参数,p(w) 为单词 的词频。
优势:
* 通过调整 可以使 $weight(w)$ 达到最优解;
* (实验证明)不同领域的语料得到的 不会影响对应的权重计算。
Related Work
- word embedding
在 Random Walk 模型中对潜在的变量进行近似推理
* Random Walk 是在文章中生成缺失词的产生式模型。
- Phrase/Sentence/Paragraph embeddings
基于 word embeddings 生成相应的 paraphrase-level embeddings,并据此对原始 word embeddings 进行调整,在初始化以及整个训练过程中均采用了监督学习方法
Sentence Embedding
- 符号表
| 符号 | 含义 |
|---|---|
| s | 句子 |
| c_t | discourse vector,个人理解为表示当前时刻t的一个背景变量 |
| c_s | 句子中对任意时刻的的近似,即所有时刻都一致 |
| v_w | 单词的向量表示 |
时刻出现单词的概率可表示为:
-
改进的 Random Walk 模型
-
两个
smooth term的作用:- 解释出现在 context 之外的词
- 解释与 discourse 无关的高频词
- \alpha p(w)
- common discourse c_0
- 修正后的概率:
-
-
计算 sentence embedding
令
令 a=\frac{1-\alpha}{\alpha Z},
???问题:
什么是first principle component?
- 与 Word2Vec 中 subsampling probabilitise 的联系
具体内容可见于论文,并经实验验证可知, 采用word2vec结合subsamplin
g策略配合梯度优化策略所获得的权重计算结果与本文采用的加权机制所得结果十分接近.值得注意的是, 前者计算出的梯度期望值与后者模型中所使用的discourse vector具有相似性
实验结果
- 文本相似度任务
其
在以下任务上都表现出了不错的性能
* SICK similarity task
* SICK entailment task
* SST 二分类任务
在 sentiment 任务上并没有比 RNN/LSTM 效果好,可能是因为
* 由于 `???antonym problem`,词向量对捕获情感信息存在一定限制
As presented in the research paper, employing word vector techniques enables effective sentiment assessment through computational linguistic methods.
* 设计的加权机制会对一些很重要的高频词降低权重,比如“not”
设计更合适的加权机制,或者尝试学习权重
- 词序的影响
在有监督任务上,相比 RNN/LSTM,本文的方法对词序的依赖很小。
