【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

阅读量：

免费链接： Blogger(需翻Q)

文章目录

相关信息
- 摘要部分（Abstract Section）
- 引言部分（Introduction）
- 相关研究综述（Related Work Review）
- 中文预训练语言模型研究进展（Progress in Chinese Pre-trained Language Models）
  - 子部分：Bert-Wwm与RoBERTa-Wwm对比分析
    - 子部分：Macbert的引入与应用分析
4. 实验配置（Experimental Configurations）
- - 4.1 配置预训练语言模型
  - 4.2 配置微调任务
- 5. 结果（Results）
- 6. 讨论（Discussion）
- 7. 结论（Conclusion）

摘要（Abstract）

作者提出了一个中文Bert，起名为MacBert 。

该模型采用的mask策略（作者提出的）是 M LM a s c orrection (Mac)

作者用MacBert在8个NLP任务上进行了测试，大部分都能达到SOTA

1. 介绍（Introduction）

作者的贡献：开发出新型MacBert架构以缩小了预训练与微调之间的性能鸿沟。该方法通过在mask字符时替换为近似字符来实现掩蔽处理。

这个表总结的不错。其他略

3. 中文预训练模型（Chinese Pre-trained Language Models）

3.1 BERT-wwm & RoBERTa-wwm

略（也是相关工作）

3.2 MacBERT

MacBERT的训练使用了两个任务，MLM和SOP（sentence-order prediciton）

对于MLM任务，与BERT类似，但做了如下修改：

作者采用了N-gram方法来确定哪些token需要mask，并将这些token按照40%,30%,20%,10%的比例分别对应于1-gram到4-gram的mask。
相较于BERT的方法，在替代表现良好的情况下采用相近的文字来进行替换。这些相近的文字来源于Synonyms toolkit。
当遇到需要mask的情况时，在大约8成的情况下会替换成相似文字，在约15%的情况下则选择直接替换成[mask]符号；而在剩余部分则会保留原始文字。

在原文中提到‘word’这个词时, 其实我对‘word’是否指代单个汉字还是整词存在疑问。一般来说, 中文BERT模型是以单个汉字为单位进行处理, 因此在我的理解中' word '指的是单个汉字。

对于SOP任务，其负样本就是将两个连续的句子交换顺序。

4. 实验设置（Experiment Setups）

4.1 Setups for Pre-Trained Language Models

该数据集包含两个部分:一是中文维基百科条目库,包含约0.4亿个汉字;二是结合了新百科全书和问答网站的知识库,共计约5.4亿个汉字

该平台提供了一款专业的分词系统（LTP），拥有广泛的用户支持（4.2k star），采用深度学习技术实现多种自然语言处理功能模块包括词语切分、词性标注以及语法解析等内容

训练方式 ：①针对BaseModel，在已有Chinese BERT-base模型基础上进行进一步微调；②针对LargeModel，则需要从头开始进行参数优化。

其他设置 ：

最长句长度限制：512
- 权重衰减优化器：Adam
- 优化器为Lamb
  对于MacBERT-large模型，在训练过程中设置了以下参数：
  训练步数为 $2 \times 10^6$ 步，
  批量大小设为512，
  学习率设置为 $1 \times 10^{-4}$ 。

训练细节汇总如下表：

4.2 Setups for Fine-tuning Tasks

本节是关于下游任务的设置，略。

5. 结果（Results）

本章展示了在各个下游任务的实验结果。这里我简单列个表：

任务	Level	MacBERT结果
Machine Reading Comprehension	document-level	最强
Single Sentence Classification	sentence-level	一般，与其他差异不大
Sentence Pair Classification	sentence-level	稍好，平均来讲，比其他模型稍微好一丢丢

6. 讨论（Discussion）

作者做了消融实验，得出了以下结论：

MacBERT在提升Performance方面主要得益于N-gram mask以及Word Substitution这两个机制。
尽管SOP(Sentence-order Prediction)任务也带来了一定程度的改善，但其对Performance的整体影响增幅有限。

7. 结论（Conclusion）

略

全部评论 (0)

还没有任何评论哟~

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

免费链接：Blogger需翻Q 文章目录相关信息摘要（Abstract） 1\.介绍（Introduction） 2\.相关工作（RelatedWork） 3\.中文预训练模型（ChinesePr...

《Revisiting Pre-trained Models for Chinese Natural Language Processing》（MacBERT）阅读记录

《RevisitingPretrainedModelsforChineseNaturalLanguageProcessin》 toappearatFindingsofEMNLP2020 链接：<htt...

论文阅读笔记-Pre-trained Models for Natural Language Processing: A Survey

前言预训练模型给下游任务带来的效果不言而喻，有了预训练模型，我们可以使用它来加速解决问题的过程。正如论文中所说的那样，预训练模型（PTMs）的出现将自然语言处理（NLP）带入了一个新时代。

Pre-trained Models for Natural Language Processing: A Survey

论文阅读|Pre-trained Models for Natural language Processing: A Survey

【导言】这篇综述是复旦大学的邱锡鹏教授对近两年的预训练语言模型（PTM）做的综述，全文有25页，文章很全面，边读边译。文章太长了，一次性读太多有点消化不了，慢慢更新吧。

预训练综述 Pre-trained Models for Natural Language Processing: A Survey 阅读笔记

原文链接：<https://arxiv.org/pdf/2003.08271.pdf 此文为邱锡鹏大佬发布在arXiv上的预训练综述，主要写了预训练模型（PTM）的历史，任务分类，PTM的扩展，将PT...

论文笔记：Exploring Pre-trained Language Models for Event Extraction and Generation

作者：陈宇飞单位：燕山大学论文地址：https://www.aclweb.org/anthology/P191522/ 目录一、摘要二、引言三、相关工作四、模型 4.1触发词抽取模型 4....

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models

近年来，随着Transformer的出现，NLP领域的重心逐渐向迁移学习转变，也出现了BERT、GPT2等基于非监督学习的大型模型，有很多文章关注如何对其进行有效的预训练，但如何针对下游任务进行微调也...

论文笔记：ACL/2019 Exploring Pre-trained Language Models for Event Extraction and Generation

论文地址：ExploringPretrainedLanguageModelsforEventExtractionandGenerationACLAnthologyhttps://aclantholog...

论文笔记--On the Sentence Embeddings from Pre-trained Language Models

论文笔记OntheSentenceEmbeddingsfromPretrainedLanguageModels 1\.文章简介 2\.文章概括 3文章重点技术 3.1BERT模型的语义相似度能力分析 ...

是否确定退出登录?

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

文章目录

相关信息

摘要（Abstract）

1. 介绍（Introduction）

2. 相关工作（Related Work）

3. 中文预训练模型（Chinese Pre-trained Language Models）

3.1 BERT-wwm & RoBERTa-wwm

3.2 MacBERT

4. 实验设置（Experiment Setups）

4.1 Setups for Pre-Trained Language Models

4.2 Setups for Fine-tuning Tasks

5. 结果（Results）

6. 讨论（Discussion）

7. 结论（Conclusion）

全部评论 (0)

相关文章推荐

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

《Revisiting Pre-trained Models for Chinese Natural Language Processing》（MacBERT）阅读记录

论文阅读笔记-Pre-trained Models for Natural Language Processing: A Survey

Pre-trained Models for Natural Language Processing: A Survey

论文阅读|Pre-trained Models for Natural language Processing: A Survey

预训练综述 Pre-trained Models for Natural Language Processing: A Survey 阅读笔记

论文笔记：Exploring Pre-trained Language Models for Event Extraction and Generation

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models

论文笔记：ACL/2019 Exploring Pre-trained Language Models for Event Extraction and Generation

论文笔记--On the Sentence Embeddings from Pre-trained Language Models