Fine-tune BERT for Extractive Summarization

阅读量：

中文标题：精调BERT做抽取式摘要

论文链接：https://arxiv.org/pdf/1903.10318.pdf

发表：EMNLP 2019

组织：爱丁堡大学

开源链接：GitHub - nlpyang/BertSum: Code for paper Fine-tune BERT for Extractive Summarization

Abstract

本文将BERT用于抽取式摘要，提出了BERT的一个变体：BERTSUM。

1. Introduction

作者在本文主要专注于利用BERT来解决抽取式摘要的问题，作者发现一个扁平的句间Transformer的结构效果最好，在CNN/DM和NYT两个数据集上达到了SOTA。

2. Methodology

抽取式摘要的主要思想是对于一个文档中的句子集合 $d=(sent_{1},sent_{2},...,sent_{m})$ ，模型预测的目标是为每一个句子 $sent_{i}$ 预测一个标签 $y_{i}\in (0, 1)$ ，判断句子是否出现在摘要之中。

将BERT用于抽取式摘要，要求BERT输出sentence-level的表示，而原始的BERT是token-level的，且尽管BERT使用NSP任务，但是NSP的标签只有两个句子A和句子B，对于摘要的多句子情况也不适用。因此本文的主要工作是对BERT的输入序列和embedding进行了修改。整体模型的结构如下图所示：

Encoding Multiple Sentences

我们知道BERT中的[CLS]用于代表整个输入文本的语义表示，因为BERT的输入为单句子或者一个句子对，所以[CLS]可以理解为聚合一个句子或者一个句子对的语义信息，即[CLS]是sentence-level的。因此，作者利用了这一点，在每个输入句子前都加上了[CLS]来作为的表征。

Interval Segment Embeddings

本文为使用了interval segment embeddings，每个句子分配的segment embedding取决于其位置的奇偶。举个例子，对于句子序列 $[sent_{1},sent_{2},sent_{3},sent_{4},sent_{5}]$ ，分配的embedding为 $[E_{A},E_{B},E_{A},E_{B},E_{A}]$ 。

得到sentence-level的表示后，在修改后的BERT接summarization layer（其实就是一个分类器）。作者给出了三种方式：

（1）简单的分类器：直接接一个线性层，然后使用sigmoid激活函数得到结果；

（2）Transformer：使用一个 $l$ 层的transformer，最后接sigmoid激活的线性层输出结果。作者实验了 $l=1,2,3$ 三种情况，发现 $l=2$ 效果最好；

（3）LSTM：使用LSTM后接一个sigmoid激活的线性层输出结果。

3. Experiment

作者在预测中使用了一个重要的机制。

trigram blocking：给定一个摘要S和候选句子c，如果c和S中存在一个重叠的三元组，则跳过c。

实验结果如下：

可以发现，在两个数据集上本文的方法取得了SOTA（可以发现BERT随便配个分类器效果已经很好了，没必要再上Transformer）。下图为作者做的消融实验：

可以发现，实际上还是trigram blocking更有用些，interval segments貌似也没什么太大用。

4. Conclusion

本文提出了BERTSUM模型，通过为每个句子前添加[CLS]，使用interval segments embeddings来修改BERT，在预测阶段还使用了trigram blocking提升效果。

全部评论 (0)

还没有任何评论哟~

Fine-tune BERT for Extractive Summarization

中文标题：精调BERT做抽取式摘要论文链接：https://arxiv.org/pdf/1903.10318.pdf 发表：EMNLP2019 组织：爱丁堡大学开源链接：GitHubn...

Fine-tune BERT for Extractive Summarization（有代码pytorch）

本论文是extractivesummarization 摘要提取通常被定义为一个二分类问题，二分类问题表明这个句子是否在这个摘要中。我们的提取模型是建立在这个编码器之上，通过堆叠几个句子间Trans...

bert做文本摘要_Fine-tune BERT for Summarization: BERT和文本摘要

BERT论文系列导读导读文本摘要主要分为抽取式文本摘要和生成式文本摘要，抽取式文本摘要因为发展的时间比较长，因此在工业界应用的范围比较广。比较常用的抽取式文本摘要的算法就是Textrank，但是呢...

How to Fine-Tune BERT for Text Classification?读论文

前言：本文来自复旦的团队，主要探讨了bert的进一步预训练和微调来进行文本分类的内容。时值练习，那么聊到分本分类的大杀器bert，所以找到了这篇文章。焦点主要聚焦在具体方法上：一、方法 1.可变的...

Ranking Sentences for Extractive Summarization with Reinforcement Learning

RankingSentencesforExtractiveSummarizationwithReinforcementLearning 摘要单个文档摘要是在保留其主要信息内容的同时生成较短版本的文档...

Ranking Sentences for Extractive Summarization with Reinforcement Learning

中文标题：基于强化学习的句子排序抽取式摘要开源链接：https://github.com/shashiongithub/Refresh 论文链接：https://arxiv.org/pd...

How to Fine-Tune BERT for Text Classification 论文笔记

HowtoFineTuneBERTforTextClassification论文笔记论文地址：HowtoFineTuneBERTforTextClassification？ BERT在NLP任务中效...

Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization

本文是LLM系列文章，针对《ScalingUpSummarization:LeveragingLargeLanguageModelsforLongTextExtractiveSummarization...

【论文解读】(如何微调BERT？) How to Fine-Tune BERT for Text Classification?

免费链接：Blogger需翻Q 文章目录论文信息 1\.论文内容 2\.论文结论 2.1微调流程 2.2微调策略FineTuningStrategies 2.3FurtherPretrain 3\....

Bert微调技巧实验大全-How to Fine-Tune BERT for Text Classification

知乎主页lynne阿黎请大家不吝关注背景介绍文本分类是NLP中的一个经典任务，通常在大型的数据集进行一些预训练的模型在文本分类上可以取得很不错的成绩。例如word2vec，CoVecontextu...

是否确定退出登录?

Fine-tune BERT for Extractive Summarization

Abstract

1. Introduction

2. Methodology

3. Experiment

4. Conclusion

全部评论 (0)

相关文章推荐

Fine-tune BERT for Extractive Summarization

Fine-tune BERT for Extractive Summarization（有代码pytorch）

bert做文本摘要_Fine-tune BERT for Summarization: BERT和文本摘要

How to Fine-Tune BERT for Text Classification?读论文

Ranking Sentences for Extractive Summarization with Reinforcement Learning

Ranking Sentences for Extractive Summarization with Reinforcement Learning

How to Fine-Tune BERT for Text Classification 论文笔记

Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization

【论文解读】(如何微调BERT？) How to Fine-Tune BERT for Text Classification?

Bert微调技巧实验大全-How to Fine-Tune BERT for Text Classification