Advertisement

论文阅读:Large-Scale Transfer Learning for Natural Language Generation

阅读量:

迁移学习的思路是:先在大规模的未标注文本语料上无监督地预训练一个语言模型,再把预训练好的语言模型迁移到特定的任务上,对模型参数进行微调。目前迁移学习的大部分研究集中在文本分类和NLU(natural language understanding)任务上,迁移学习应用在NLG(natural language generation)任务上的研究比较少。这篇论文主要研究了迁移学习在对话系统上的应用。

作者针对对话系统试验了single-input 和 multi-input 这两种模型;因为对话系统主要有三种输入:dialogue history,facts以及previous decoded tokens;

single-input模型:把三种输入连接起来作为模型的输入。连接方式有三种:

1.用自然分隔符连接输入。论文中给每句对话添加双引号。

2.用空间分隔符连接。比如用’_SEP’把每个句子连接起来。

3.直接把句子连接起来,再用context-type embedding(CTE)来表示输入的类型。

multi-input模型:

多输入模型基于encoder-decoder框架。用预训练的语言模型参数来初始化encoder和decoder。多输入模型的输入同样可以采用单输入模型的处理方式。将persona information和dialogue history分别送入encoder进行编码得到两个向量表示。重点在于decoder部分的调整。decoder的multi-head attention模块处理三种特征输入(personal information,dialogue history,previous decoded tokens),再把三者的结果取平均值即可。

paper note:https://spring-quan.github.io/2020/01/07/论文笔记《Large-Scale-Transfer-Learning-for-Natural-Language-Generation》/

1. 对话系统领域,使用预训练进行迁移学习生成,尤其针对单输入和多输入模型的处理,可以借鉴学习;

全部评论 (0)

还没有任何评论哟~