Advertisement

【论文笔记】MacBert:Revisiting Pre-trained Models for Chinese Natural Language Processing

阅读量:

免费链接: Blogger(需翻Q)


文章目录

  • 相关信息

    • 摘要部分(Abstract Section)
    • 引言部分(Introduction)
    • 相关研究综述(Related Work Review)
    • 中文预训练语言模型研究进展(Progress in Chinese Pre-trained Language Models)
      • 子部分:Bert-Wwm与RoBERTa-Wwm对比分析
        • 子部分:Macbert的引入与应用分析
  • 4. 实验配置(Experimental Configurations)

      • 4.1 配置预训练语言模型
      • 4.2 配置微调任务
    • 5. 结果(Results)

    • 6. 讨论(Discussion)

    • 7. 结论(Conclusion)

相关信息

论文年份:2020年04月

论文地址https://arxiv.org/pdf/2004.13922.pdf

论文代码(官方)https://github.com/ymcui/MacBERT

学术模型基于Hugging Face平台的实现包括[hf/chinese-macbert-base]和[hf/chinese-macbert-large]两个版本;这两个版本分别对应于hf/chinese-macbert-basehf/chinese-macbert-large

论文阅读前提:熟悉BERT模型及其前置知识

研究者对传统BERT模型中的MLM预训练任务进行了创新性修改,在遮蔽标记策略上有所突破。具体而言,他们不再采用标准[MASK]符号作为遮蔽标记,而是转而采用与原有词汇高度相似的文字作为遮蔽标记。通过这一调整,实验数据显示该模型在性能指标方面取得了显著提升,并正式命名为MacBERT模型。

摘要(Abstract)

作者提出了一个中文Bert,起名为MacBert

该模型采用的mask策略(作者提出的)是 M LM a s c orrection (Mac)

作者用MacBert在8个NLP任务上进行了测试,大部分都能达到SOTA

1. 介绍(Introduction)

作者的贡献:开发出新型MacBert架构以缩小了预训练与微调之间的性能鸿沟。该方法通过在mask字符时替换为近似字符来实现掩蔽处理。

2. 相关工作(Related Work)

在这里插入图片描述

这个表总结的不错。其他略

3. 中文预训练模型(Chinese Pre-trained Language Models)

3.1 BERT-wwm & RoBERTa-wwm

略(也是相关工作)

3.2 MacBERT

MacBERT的训练使用了两个任务,MLM和SOP(sentence-order prediciton)

对于MLM任务,与BERT类似,但做了如下修改:

  • 作者采用了N-gram方法来确定哪些token需要mask,并将这些token按照40%,30%,20%,10%的比例分别对应于1-gram到4-gram的mask。
  • 相较于BERT的方法,在替代表现良好的情况下采用相近的文字来进行替换。这些相近的文字来源于Synonyms toolkit
  • 当遇到需要mask的情况时,在大约8成的情况下会替换成相似文字,在约15%的情况下则选择直接替换成[mask]符号;而在剩余部分则会保留原始文字。

在原文中提到‘word’这个词时, 其实我对‘word’是否指代单个汉字还是整词存在疑问。一般来说, 中文BERT模型是以单个汉字为单位进行处理, 因此在我的理解中' word '指的是单个汉字。

对于SOP任务,其负样本就是将两个连续的句子交换顺序。

4. 实验设置(Experiment Setups)

4.1 Setups for Pre-Trained Language Models

该数据集包含两个部分:一是中文维基百科条目库,包含约0.4亿个汉字;二是结合了新百科全书和问答网站的知识库,共计约5.4亿个汉字

该平台提供了一款专业的分词系统(LTP),拥有广泛的用户支持(4.2k star),采用深度学习技术实现多种自然语言处理功能模块包括词语切分、词性标注以及语法解析等内容

训练方式 :①针对BaseModel,在已有Chinese BERT-base模型基础上进行进一步微调;②针对LargeModel,则需要从头开始进行参数优化。

其他设置

  • 最长句长度限制:512
    • 权重衰减优化器:Adam
    • 优化器Lamb
      对于MacBERT-large模型,在训练过程中设置了以下参数:
      训练步数为2 \times 10^6步,
      批量大小设为512,
      学习率设置为1 \times 10^{-4}

训练细节汇总如下表:

在这里插入图片描述

4.2 Setups for Fine-tuning Tasks

本节是关于下游任务的设置,略。

5. 结果(Results)

本章展示了在各个下游任务的实验结果。这里我简单列个表:

任务 Level MacBERT结果
Machine Reading Comprehension document-level 最强
Single Sentence Classification sentence-level 一般,与其他差异不大
Sentence Pair Classification sentence-level 稍好,平均来讲,比其他模型稍微好一丢丢

6. 讨论(Discussion)

作者做了消融实验,得出了以下结论:

  1. MacBERT在提升Performance方面主要得益于N-gram mask以及Word Substitution这两个机制。
  2. 尽管SOP(Sentence-order Prediction)任务也带来了一定程度的改善,但其对Performance的整体影响增幅有限。

7. 结论(Conclusion)

全部评论 (0)

还没有任何评论哟~