《Modeling Multi-turn Conversation with Deep Utterance Aggregation》阅读笔记

阅读量：

论文原文：https://arxiv.org/pdf/1806.09102.pdf

整体感受觉得这项总结非常出色且易于理解。内容则聚焦于四篇经典论文的梳理与整合，在结构安排上采用了时间顺序展开的方式进行阐述。整体风格较为轻松有趣（挺有意思的），但在用词选择上略显口语化（例如"哈哈"），建议在正式场合中避免使用此类表述以提升专业性

上海交通大学等2018年发表的一篇重要文章主要研究了基于检索式的多轮问答模型，并提出了一种深度对话整合模型（DUA）。该模型针对多轮对话中将过去会话直接拼接作为上下文信息所存在的噪声和冗余问题，在对话与回复中采用了注意力机制来提取关键信息，并通过忽略冗余信息来突出关键点。最终实现了utterances与response之间的匹配得分计算。此外，在这项研究中还构建了一个电子商务对话语料库ECD集合（ECD），涵盖了商品咨询、物流快递、推荐系统以及谈判策略等多个应用场景，并附上了相关的数据集与代码资源：本文的数据集及代码）。文章结构可划分为以下五个模块：

DUA的优点：

最后一轮对话巧妙地与前面对话融合，并通过语义相关的方法实现其核心信息的优化处理

每轮会话可以凸显关键信息，从一定程度上忽略冗余信息

计算最终匹配得分的时候充分考虑各轮对话之间的关系

Utterance Representation

采用GRU模型将每个utterance和候选response进行embedding。

Turns-aware Aggregation

Utterance Representation对应于将每个utterance视为同等重要，并未考虑到上一个utterance与之前对话的关系。该模块主要负责将最后一个utterance与上下文中的其他所有对话单元以及候选回复进行融合，并在论文中直接对每个对话单元及其响应的嵌入表示进行连接处理以获得表征F

Matching Attention Flow

该模块旨在对上一模块的turn-sensitive表征数据F进行处理，并采用自匹配注意力机制对多余的信息进行过滤，在utterances和response中提取或分析其显著特征。进而通过基于注意力机制的GRU模型实现表征间的交互融合过程。

[·,·] 是两个向量串联在一起 ,Ct是self-matching attention的输出

Response Matching

第四部分在单个单词级别和会话级别上与每个response及每个utterance进行配对，并通过CNN计算出匹配向量。

这里从两个粒度进行匹配：

词粒度：u和r各自是utterance和response中的一个特定词。根据下述公式可计算出这两个句子对应位置处的匹配程度。综合所有这些对应位置处的词粒度匹配程度，则可构建一个形状为(utterance长度×response长度)的矩阵M₁

P是在前一阶段从 utterance 和 response 中提取出各个位置上的特征表示；此外也可以获得形状为 (utterance长度, response长度) 的矩阵 M2

尔后分别在这两个矩阵上进行CNN卷积操作，得到卷积之后的表征。

最后进行max-pooling和flatten之后concatenation。

Attentive Turns Aggregation

通过按时间顺序传递匹配向量到GRU来生成utterance并计算其与response之间的匹配得分，并将其分为初始化阶段、更新阶段以及评估阶段。

第一步：先通过一个GRU；

第二步：attention机制；

第三步：加一个softmax，得到匹配度。

参考：

巷中的自由猫群：巷里野猫

https://www.paperweekly.site/papers/2352

https://zhuanlan.zhihu.com/p/44539292

全部评论 (0)

还没有任何评论哟~

《Modeling Multi-turn Conversation with Deep Utterance Aggregation》阅读笔记

论文原文：<https://arxiv.org/pdf/1806.09102.pdf 刚看到小夕的这篇总结个人感觉讲的很好很容易理解，里面涉及了4篇论文串烧，按照时间讲了算法的发展，文风也蛮有趣（有点...

Recurrence along Depth: Deep Convolutional Neural Networks with Recurrent Layer Aggregation阅读笔记

RLA阅读笔记一Title 二Summary 三ResearchObject 四ProblemStatement 五Method 5.1LayerAggregation 5.2在深层network中...

阅读笔记 Deep Learning with Pytorch

Preface 深度学习最初在2010年代出现，最初出现在CV领域，开始被应用于医学图像分析任务。深度学习代表了一种全新的软件编写方式：一种新的多用途算法，可以学习如何通过观察数据来解决复杂的任务。

Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation 文献阅读笔记

题目：基于上下文相关性的深度感知多网格深度单应性估计作者：L.Nie等年份：2021 一.摘要传统得单应性估计方法严重依赖于特征点对应得数量和分布，这导致在低纹理场景中鲁棒性较差。相反，基于学习...

【论文阅读笔记】Multi-scale context aggregation by dilated convolutions

论文地址：https://arxiv.org/abs/1511.07122 代码地址：https://github.com/ndrplz/dilationtensorflow https://gith...

【阅读笔记】Deep SCNN Trained with STDP

DeepSpikingConvolutionalNeuralNetworkTrainedwithUnsupervisedSpikeTimingDependentPlasticity 本文提出了一个叫S...

阅读论文笔记《Translating Embeddings for Modeling Multi-relational Data》

目录一、模型核心原理剖析二、实验设计与数据集选择三、实验结果深度解读（一）链接预测实验（二）关系分类实验（三）链接预测示例（四）泛化实验四、模型优缺点总结（一）优点（二）缺点五、...

TriDet: Temporal Action Detection with Relative Boundary Modeling——阅读笔记

code：https://github.com/dingfengshi/TriDet 摘要：在本文中，提出了一个一阶段的框架TriDet的时间动作检测。现有的方法往往遭受不精确的边界预测，由于在视频...

论文阅读笔记（3）——Translating Embeddings for Modeling Multi-relational Data

Abstract 1Introduction Modelingmultirelationaldata Relationshipsastranslationsintheembeddingspace 2T...

“Mamba: Linear-Time Sequence Modeling with Selective State Spaces“阅读笔记

摘要在机器学习领域，基础模型FoundationModels,FMs应用广泛，它是在海量的数据上完成预训练，然后经过微调来适应下游任务。目前的FM主要基于Transformer及其核心注意力层。自注...

是否确定退出登录?

《Modeling Multi-turn Conversation with Deep Utterance Aggregation》阅读笔记

Utterance Representation

Turns-aware Aggregation

Matching Attention Flow

Response Matching

Attentive Turns Aggregation

全部评论 (0)

相关文章推荐

《Modeling Multi-turn Conversation with Deep Utterance Aggregation》阅读笔记

Recurrence along Depth: Deep Convolutional Neural Networks with Recurrent Layer Aggregation阅读笔记

阅读笔记 Deep Learning with Pytorch

Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation 文献阅读笔记

【论文阅读笔记】Multi-scale context aggregation by dilated convolutions

【阅读笔记】Deep SCNN Trained with STDP

阅读论文笔记《Translating Embeddings for Modeling Multi-relational Data》

TriDet: Temporal Action Detection with Relative Boundary Modeling——阅读笔记

论文阅读笔记（3）——Translating Embeddings for Modeling Multi-relational Data

“Mamba: Linear-Time Sequence Modeling with Selective State Spaces“阅读笔记