[NLP]论文笔记-A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

阅读量：

A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

这篇文章是我在学习 Stanford 的 CS224N 课程后的一篇推荐论文。slide中提到，在情感分析等依赖于句子整体含义的任务中，sentence embedding表现出显著的效果，并因此吸引了我的兴趣而选择了这篇论文进行深入研究。
在阅读这篇论文的过程中，我对 sentence embedding 的基本概念有了初步的理解。我认为生成一个有意义且精确的句子向量表示可以从以下几个方面入手：首先考虑文章长度（句长），其次关注文章中的关键词分布情况（组成句子的单词），最后还需考虑文章的语法树（parse tree）来捕捉复杂的语义关系。

从以下几个方面入手包括将单词嵌入和句法嵌入拼接作为神经网络的输入以生成句子嵌入。
在看完文章中的模型之后除了我在想的一些单词之外作者强调该模型对词序的依赖程度较低感觉上文提到这样有点类似于强调句式结构的重要性这一点我还不是很清楚具体含义。
总结而言这篇文章主要提出了一种无监督学习方法用于生成句子嵌入即通过加权机制对句子中的每个单词进行赋予权重从而计算得到整个句子对应的向量表示该方法在多个任务如文本相似度计算文本蕴含关系以及文本分类等方面表现优异文章重点介绍的是这种加权机制的相关细节后续会进行详细说明。

Abstraction

特点

无监督，对单词加权，词袋模型，与词序无关。

简介

Compute word embeddings through one widely-used technique applied to unlabeled data, such as Wikipedia, and then express these sentences as a weighted sum of the corresponding word vectors. Subsequently, apply dimensionality reduction techniques like PCA/SVD to these representations.

theoretical explanation

employing a latent-variable generative model to represent the structure and semantics of text sequences, an extension that builds upon the work of Arora et al. TACL’16.

？？？问题：
允许出现一些虽然不在上下文中但出现频率很高的单词（allow for words occurring out of context, as well as high probabilities for words like and, not in all contexts.）

Introduction

起源

基于PPDB平台对标准word embedding进行调整，并开发一种word averaging模型用于生成sentence embedding。结果显示该方法具有较好的效果。然而由于这一调整过程限制了后续优化空间，在实际应用中传统的简单平均方法通常难以捕捉复杂的语义信息。

算法
计算过程：计算词向量集合的加权平均结果。
公共成分去除法：从平均向量集合在其主成分上的投影中去除这些投影。

单词 $w$ 的权重（SIF）：

其中 $a$ 为参数， $p(w)$ 为单词的词频。

优势：

复制代码

 * 通过调整  可以使 $weight(w)$ 达到最优解；

 * （实验证明）不同领域的语料得到的  不会影响对应的权重计算。

word embedding

在 Random Walk 模型中对潜在的变量进行近似推理

复制代码

 * Random Walk 是在文章中生成缺失词的产生式模型。

Phrase/Sentence/Paragraph embeddings

基于 word embeddings 生成相应的 paraphrase-level embeddings，并据此对原始 word embeddings 进行调整，在初始化以及整个训练过程中均采用了监督学习方法

Sentence Embedding

符号表

符号	含义
$s$	句子
$c_t$	discourse vector，个人理解为表示当前时刻 $t$ 的一个背景变量
$c_s$	句子中对任意时刻的的近似，即所有时刻都一致
$v_w$	单词的向量表示

时刻出现单词的概率可表示为：

改进的 Random Walk 模型
- 两个 smooth term 的作用：
  - 解释出现在 context 之外的词
  - 解释与 discourse 无关的高频词
1. $\alpha p(w)$
2. common discourse $c_0$
- 修正后的概率：
计算 sentence embedding

令

令 $a=\frac{1-\alpha}{\alpha Z},$

？？？问题：
什么是 first principle component？

与 Word2Vec 中 subsampling probabilitise 的联系

具体内容可见于论文，并经实验验证可知, 采用word2vec结合subsamplin
g策略配合梯度优化策略所获得的权重计算结果与本文采用的加权机制所得结果十分接近.值得注意的是, 前者计算出的梯度期望值与后者模型中所使用的discourse vector具有相似性

实验结果

文本相似度任务

其

在以下任务上都表现出了不错的性能

复制代码

 * SICK similarity task
 * SICK entailment task
 * SST 二分类任务

在 sentiment 任务上并没有比 RNN/LSTM 效果好，可能是因为

复制代码

 * 由于 `？？？antonym problem`，词向量对捕获情感信息存在一定限制

As presented in the research paper, employing word vector techniques enables effective sentiment assessment through computational linguistic methods.

复制代码

 * 设计的加权机制会对一些很重要的高频词降低权重，比如“not”

设计更合适的加权机制，或者尝试学习权重

词序的影响

在有监督任务上，相比 RNN/LSTM，本文的方法对词序的依赖很小。

全部评论 (0)

还没有任何评论哟~

[NLP]论文笔记-A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

ASIMPLEBUTTOUGHTOBEATBASELINEFORSENTENCEEMBEDDINGS 这篇文章是在学习StanfordNLP&DL（cs224n）过程中课后的一篇推荐论文，看到slid...

[NLP论文阅读]A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

本文是阅读ICLR会议论文“ASIMPLEBUTTOUGHTOBEATBASELINEFORSENTENCEEMBEDDINGS”所作笔记。论文GitHub：https://github.com/P...

[NLP论文阅读]A simple but tough-to-beat baseline for sentence embedding

论文原文：Asimplebuttoughtobeatbaselineforsentenceembedding 引言在神经网络泛滥的时候，这篇文章像一股清流，提出了一个无监督的句子建模方法，并且给出了...

(4)A Simple But ToughToBeat Baseline For Sentence Embed

作者：禅与计算机程序设计艺术 1.简介自然语言处理领域的任务之一就是给输入文本生成相应的高维向量表示（embedding）。一般来说，最简单的代表句子的embedding方法就是传统词袋模型（bag...

论文笔记--SimCSE: Simple Contrastive Learning of Sentence Embeddings

论文笔记SimCSE:SimpleContrastiveLearningofSentenceEmbeddings 1\.文章简介 2\.文章概括 3文章重点技术 3.1对比学习ContrastiveL...

《A Simple Baseline for BEV Perception Without LiDAR》论文笔记

参考代码：bevbaseline projectpage：ASimpleBaselineforBEVPerceptionWithoutLiDAR 1\.概述介绍：在这篇文章中提出了一种特别简单但效果...

【论文笔记】VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

VisualBert：适用很多种类的任务，结构简单和VLBert的区别：由tokenenbedding和featureembedding共同组成了一个embedding层 position编码层被...

A Simple Baseline for multi-object Tracking(FairMOT)论文阅读笔记

FairMOT论文笔记（一）Title （二）Summary （三）ResearchObejct （四）ProblemStatement （五）Method 5.1backbone 5.2Objec...

[NLP论文阅读]Siamese CBOW: OptimizingWord Embeddings for Sentence Representations

论文原文:SiameseCBOW:OptimizingWordEmbeddingsforSentenceRepresentations 引言前段时间看了一篇SiameseLSTM（孪生LSTM）用于...

论文阅读 TIPCB: A simple but effective part-based convolutional baseline for text-based person search

论文网址：TIPCB:AsimplebuteffectivepartbasedconvolutionalbaselinefortextbasedpersonsearchScienceDirect 1\...

是否确定退出登录?

[NLP]论文笔记-A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

Abstraction

Introduction

Related Work

Sentence Embedding

实验结果

全部评论 (0)

相关文章推荐

[NLP]论文笔记-A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

[NLP论文阅读]A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

[NLP论文阅读]A simple but tough-to-beat baseline for sentence embedding

(4)A Simple But ToughToBeat Baseline For Sentence Embed

论文笔记--SimCSE: Simple Contrastive Learning of Sentence Embeddings

《A Simple Baseline for BEV Perception Without LiDAR》论文笔记

【论文笔记】VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

A Simple Baseline for multi-object Tracking(FairMOT)论文阅读笔记

[NLP论文阅读]Siamese CBOW: OptimizingWord Embeddings for Sentence Representations

论文阅读 TIPCB: A simple but effective part-based convolutional baseline for text-based person search