【论文笔记】MacBert:Revisiting Pre-trained Models for Chinese Natural Language Processing
免费链接: Blogger(需翻Q)
文章目录
-
相关信息
- 摘要部分(Abstract Section)
- 引言部分(Introduction)
- 相关研究综述(Related Work Review)
- 中文预训练语言模型研究进展(Progress in Chinese Pre-trained Language Models)
- 子部分:Bert-Wwm与RoBERTa-Wwm对比分析
- 子部分:Macbert的引入与应用分析
- 子部分:Bert-Wwm与RoBERTa-Wwm对比分析
-
4. 实验配置(Experimental Configurations)
-
- 4.1 配置预训练语言模型
- 4.2 配置微调任务
-
5. 结果(Results)
-
6. 讨论(Discussion)
-
7. 结论(Conclusion)
-
相关信息
论文年份:2020年04月
论文地址:https://arxiv.org/pdf/2004.13922.pdf
论文代码(官方):https://github.com/ymcui/MacBERT
学术模型基于Hugging Face平台的实现包括[hf/chinese-macbert-base]和[hf/chinese-macbert-large]两个版本;这两个版本分别对应于hf/chinese-macbert-base和hf/chinese-macbert-large
论文阅读前提:熟悉BERT模型及其前置知识
研究者对传统BERT模型中的MLM预训练任务进行了创新性修改,在遮蔽标记策略上有所突破。具体而言,他们不再采用标准[MASK]符号作为遮蔽标记,而是转而采用与原有词汇高度相似的文字作为遮蔽标记。通过这一调整,实验数据显示该模型在性能指标方面取得了显著提升,并正式命名为MacBERT模型。
摘要(Abstract)
作者提出了一个中文Bert,起名为MacBert 。
该模型采用的mask策略(作者提出的)是 M LM a s c orrection (Mac)
作者用MacBert在8个NLP任务上进行了测试,大部分都能达到SOTA
1. 介绍(Introduction)
作者的贡献:开发出新型MacBert架构以缩小了预训练与微调之间的性能鸿沟。该方法通过在mask字符时替换为近似字符来实现掩蔽处理。
2. 相关工作(Related Work)

这个表总结的不错。其他略
3. 中文预训练模型(Chinese Pre-trained Language Models)
3.1 BERT-wwm & RoBERTa-wwm
略(也是相关工作)
3.2 MacBERT
MacBERT的训练使用了两个任务,MLM和SOP(sentence-order prediciton)
对于MLM任务,与BERT类似,但做了如下修改:
- 作者采用了N-gram方法来确定哪些token需要mask,并将这些token按照40%,30%,20%,10%的比例分别对应于1-gram到4-gram的mask。
- 相较于BERT的方法,在替代表现良好的情况下采用相近的文字来进行替换。这些相近的文字来源于Synonyms toolkit。
- 当遇到需要mask的情况时,在大约8成的情况下会替换成相似文字,在约15%的情况下则选择直接替换成[mask]符号;而在剩余部分则会保留原始文字。
在原文中提到‘word’这个词时, 其实我对‘word’是否指代单个汉字还是整词存在疑问。一般来说, 中文BERT模型是以单个汉字为单位进行处理, 因此在我的理解中' word '指的是单个汉字。
对于SOP任务,其负样本就是将两个连续的句子交换顺序。
4. 实验设置(Experiment Setups)
4.1 Setups for Pre-Trained Language Models
该数据集包含两个部分:一是中文维基百科条目库,包含约0.4亿个汉字;二是结合了新百科全书和问答网站的知识库,共计约5.4亿个汉字
该平台提供了一款专业的分词系统(LTP),拥有广泛的用户支持(4.2k star),采用深度学习技术实现多种自然语言处理功能模块包括词语切分、词性标注以及语法解析等内容
训练方式 :①针对BaseModel,在已有Chinese BERT-base模型基础上进行进一步微调;②针对LargeModel,则需要从头开始进行参数优化。
其他设置 :
- 最长句长度限制:512
- 权重衰减优化器:Adam
- 优化器为Lamb
对于MacBERT-large模型,在训练过程中设置了以下参数:
训练步数为2 \times 10^6步,
批量大小设为512,
学习率设置为1 \times 10^{-4}。
训练细节汇总如下表:

4.2 Setups for Fine-tuning Tasks
本节是关于下游任务的设置,略。
5. 结果(Results)
本章展示了在各个下游任务的实验结果。这里我简单列个表:
| 任务 | Level | MacBERT结果 |
|---|---|---|
| Machine Reading Comprehension | document-level | 最强 |
| Single Sentence Classification | sentence-level | 一般,与其他差异不大 |
| Sentence Pair Classification | sentence-level | 稍好,平均来讲,比其他模型稍微好一丢丢 |
6. 讨论(Discussion)
作者做了消融实验,得出了以下结论:
- MacBERT在提升Performance方面主要得益于N-gram mask以及Word Substitution这两个机制。
- 尽管SOP(Sentence-order Prediction)任务也带来了一定程度的改善,但其对Performance的整体影响增幅有限。
7. 结论(Conclusion)
略
