【论文笔记】A model of coherence based on Distributed Sentence Representation

阅读量：

基于连贯性任务的句子向量表示

这篇文章想找出一种高效的句子的向量表示
使用了文章连贯性的任务来训练
对比了两种句子向量表示
Recurrent Sentence Representation: 就是正常的循环神经网络，使用最后一个隐含层的状态
- ht=f(Vrecurrentht−1+Wrecurrentewt+brecurrent) h_t = f(V_{recurrent} h_{t-1} + W_{recurrent} e_{w}^t + b_{recurrent}) ，RNN的表达式
Recursive Sentence Representation: 递归句子表示，先将句子解析成语法树，那么根节点的向量表示作为句子的向量（根节点向量=f(左节点，右节点)）
- hp=f(Wrecursive[hleft,hright]+brecursive) h_p = f(W_{recursive} [h_{left}, h_{right}] + b_{recursive})

Coherence Model(连贯性模型)

句子集合(一个window，可以理解为卷积的window)CC，标签ycy_c如果连贯为1，不连贯0
将句子向量拼接起来：hC=[hs1,hs2,...,hsL]h_C = [h_{s1}, h_{s2},...,h_{sL}]，其中LL表示集合CC当中的句子个数
输入到隐含层：qC=tanh(WsenhC+bsen) q_C = tanh(W_{sen} h_C + b_{sen})
最后预测是否连贯：p(yC=1)=sigmod(UqC+b) p(y_C=1) = sigmod(U q_C + b)
损失函数，就是分类交叉熵损失：J(θ)=1M∑C∈trainset{−yClog[p(yC=1)]−(1−yC)log[1−p(yC=1)]}+Q2M∑θ2 J(\theta) = \frac{1}{M} \sum_{C \in trainset} { -y_C log[p(y_C=1)] - (1-y_C) log[1-p(y_C=1)] } + \frac{Q}{2M} \sum \theta^2

文档的连贯性评分

SdS_d: 文档的连贯性评分，dd 代表一个文档，d={s1,s2,...,sNd}d = { s_1, s_2,..., s_{N_d} }，NdN_d: 表示dd文档有多少个句子
如果window size为3，那么一个文档可以生成系列的cliques: <sstart,s1,s2>,<s1,s2,s3>,...,<sNd−1,sNd,send> <s_{start}, s_1, s_2>, <s_1, s_2, s_3>,...,<s_{N_{d-1}}, s_{N_d}, s_{end}>
文档连贯性评分：Sd=∏C∈dp(yC=1) S_d = \prod_{C \in d} p(y_C=1)

一些结论

语法解树生成的句子向量要比RNN生成的句子向量要好

一些想法

这里做的是句子的连贯性评分，词的特征是体现字句子向量当中，不能评判句子是否好坏
损失函数也是评价的句子之间的连贯性
直观上来讲如果句子差，连贯性也应该是比较差的
考虑一个问题，单独只做连贯性评分是否有意义呢？有什么办法可以欺骗连贯性评分呢？

全部评论 (0)

还没有任何评论哟~

【论文笔记】A model of coherence based on Distributed Sentence Representation

基于连贯性任务的句子向量表示这篇文章想找出一种高效的句子的向量表示使用了文章连贯性的任务来训练对比了两种句子向量表示 RecurrentSentenceRepresentation:就是正常的循...

【论文阅读】Distributed Representation of Sentence and Document

Abstract 传统的单词模型（bagofwords）在实际应用中有一些缺点： 1.Theylosetheorderingofthewords，丢失了单词的顺序。 2.Theyignoreseman...

A Survey on Large Language Model based AutonomousAgents（论文笔记）

Wang,L.,Ma,C.,Feng,X.,Zhang,Z.,Yang,H.,Zhang,J.,...&Wen,J.2024.Asurveyonlargelanguagemodelbasedauton...

A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture（论文笔记）

背景（发现问题）：在基于RRAM的加速器中，自注意力层在收集输入序列信息的过程中，需要所有输入序列词的前一层结果，由于输入实例在不同的时间步上被串行处理。因此，自注意层一直保持停滞，直到上一层计...

【论文笔记】A Neural Representation of Sketch Drawings

谷歌的论文，基于seq2seq+VAE编码并生成手绘序列 <https://arxiv.org/pdf/1704.03477.pdf 本文主要是论文的概述翻译，记录文章目录 1.Introducti...

【论文笔记】Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

目录摘要 1介绍 2问题定义 2.1基线:标签约束 2.2图约束 3方法 3.1转换系统 3.2.搜索算法 3.3.组合函数 4实验 4.1数据集 4.2实验结果总结摘要实体提取和关系提取都可...

【论文笔记】3D Model classification based on few-shot learning

【Title】3DModelclassificationbasedonfewshotlearning 【Link】<https://doi.org/10.1016/j.neucom.2019.03.1...

[论文笔记]On the Importance of Uncertainty Representation in Active SLAM

OntheImportanceofUncertaintyRepresentationinActiveSLAM 本文目的在于强调表示和量化不确定性的重要性，来评估机器人行进的每个时间步的位置估计的置信度...

论文阅读笔记--A Model of Saliency-based Visual Attention for Rapid Scene Analysis

解读这篇论文的优秀博客: 1.阅读图像显著性检测论文一：AModelofSaliencyBasedVisualAttentionforRapidSceneAnalysis 2.论文笔记：AModelo...

论文笔记：Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering

202402北大冯岩松组的work 1背景 LLM在可靠证据选择和深入问题分析方面表现不佳尤其是在与法律咨询、医疗建议等知识密集型问题相关的场景中论文以法律咨询为例，在回应关于子女抚养费必要性的问...

是否确定退出登录?

【论文笔记】A model of coherence based on Distributed Sentence Representation

基于连贯性任务的句子向量表示

Coherence Model(连贯性模型)

文档的连贯性评分

一些结论

一些想法

全部评论 (0)

相关文章推荐

【论文笔记】A model of coherence based on Distributed Sentence Representation

【论文阅读】Distributed Representation of Sentence and Document

A Survey on Large Language Model based AutonomousAgents（论文笔记）

A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture（论文笔记）

【论文笔记】A Neural Representation of Sketch Drawings

【论文笔记】Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

【论文笔记】3D Model classification based on few-shot learning

[论文笔记]On the Importance of Uncertainty Representation in Active SLAM

论文阅读笔记--A Model of Saliency-based Visual Attention for Rapid Scene Analysis

论文笔记：Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering