笔记-Paraphrase Generation A Survey of the State of the Art
目录
评估方法
传统方法:
基于规则的复述生成
基于同义词字典替换的复述生成
基于统计机器翻译的复述生成
神经网络模型——复述生成
Encoder-Decoder
在Encoder-Decoder的基础上做改进基础
Attention
Copy
VAE
强化学习
GAN
Attribute-focused
各个模型的优劣
未来的研究方向
1.预训练语言模型
2.多级可控复述生成
3.迁移学习
4.文体复述生成
5.更好的自动评价方法
评估方法
(1)BLEU ,最初用于评估机器翻译系统 ;(
(2) METEOR 旨在解决 BLEU 在应用于低资源语言时无法度量语义等价的弱点,在句子 / 句段层面与人类判断的相关性优于 BLEU;
(3) ROUGE 是最初为文本摘要开发的基于回忆的评价指标,也被用于评价复述生成。它的版本, ROUGE-N( 计算 n-gram 召回 ) 和 ROUGE-L( 专
注于最长公共子序列 ) 是最常用的。
(4) TER (Snover) 它也是用来评估机器翻译的。它测量人工翻译人员必须执行的编辑次数,以更改翻译,使其与参考翻译完全匹配。 TER 分数
是一个范围在 0-1 之间的值,但通常以百分比表示,其中越低越好。
(5) 人工评估
数据集: MSCOCO, WikiAnswer , Quora , Twitter URL,ParaNMT
传统方法:
基于规则的复述生成
基于同义词字典替换的复述生成
基于统计机器翻译的复述生成
神经网络模型——复述生成
Encoder-Decoder
使用 LSTM 或者 CNN 来构建 Seq2Seq 模型,其他使用了 bart, GTP2, transformer ,这些都是在构建 Encoder
贪心解码和 beam search (贪心的一种优化)是常用的文本生成 Encoder 解码方法
在Encoder-Decoder的基础上做改进基础
Attention
使解码器在生成单词时能够关注一些高度相关的单词 / 短语
首先,计算每个时间步中源序列中每个标记的权重,以指示其重要性,强调输入中的重要信息,不强调不重要信息。给定源序列中所有标记的
权重分布,这个额外的输入向量,即上下文向量,被提供给解码器。
Copy
就是把输入序列中的重要部分直接输出到输出部分里面,通过复制机制,解码器决定在每个时间步上是使用生成模式还是复制模式
VAE
如果提供一个潜在表示 z ~ N(µ , σ) 和编码器从输入中学习到的分布,则 VAE 解码器具备在潜在表示和学习分布的条件下产生真实输出的能力。
学习是通过从潜在代码 z 重构原始输入来实现的
已经有人通过使用 lstm 和 transformer 来探索具有不同编码器和解码器的 VAEs
强化学习
强化学习的目的是训练智能体与环境进行交互,目标是最大化其回报。强化学习可以用来最大化奖励,作为一个期望的评估指标或多个期望指标的组合。可以通过最大化生成器已经有人通过强化学习来最大化评估器给出的奖励,评估器输出一个真实值来表示两个句子之间作为彼此释义的匹配程度。
GAN
GAN 由生成器和鉴别器组成,对于复述生成任务,设计了不同的判别器来区分生成的样本和真实样本、释义和非释义
Attribute-focused
多样性
即给句子产生多个不同的释义,有些人使用不同的潜在模式作为控制信号来生成不同的释义。
词级释义
主要用在如同义词替换等,一些工作也使用了外部语言知识
句法规则
这个方向则是对句子语法规则的控制,分为显示控制和隐式控制。隐式控制可以不需要实例句子,并且将多个相关语法分组在同一个潜在赋值下面。
Multi-Level
将多个组合在,让模型具备生成同义词,替换短语和重新排列句子结构的能力
各个模型的优劣
attention 和 VAE 都挺好, transformer 也不错,但是加入了 copy 复制机制会超级棒
强化学习在生成更好的释义方面有很大的优势,因为它提供了奖励
预训练大语言模型在单词级别释义会生成更好的效果
多个组合力度级别结合也会很好,当同时学习在单词级、短语级和句子级生成释义时,他们的模型在多个指标上比他们的主干 transformer 模型 提高了性能。最后,将语法控制整合到复述生成中也会在单词级和句子级产生更好的结果。
在评价模型指标的过程中,最好将自动评价指标和人工评价结合起来,进行更全面的评价。
未来的研究方向
1.预训练语言模型
预训练大模型 + 其他机制,如强化学习, VAE 和 GAN 等
2.多级可控复述生成
从词汇层面、短语层面、句法层面和句子层面等各个层面结合
3.迁移学习
文本摘要、文本简化和复述生成三个方面的复述生成
4.文体复述生成
即通过生成特定风格的释义,如可以隐喻和习语表达融入释义中
5.更好的自动评价方法
一种可能的方法是利用自动评估度量中的释义识别来明确地提供生成的句子和输入的句子是否为释义的评估。
