Self-training Improves Pre-training for Natural Language Understanding 笔记
发布时间
阅读量:
阅读量
自监督学习(self-supervised learning),是通过预训练语言模型(pre-trained language model, BERT)在无标注数据条件下生成高质量伪标签(pseudo-labels),并将其与真实样本共学以提升模型性能的方法。本文的主要贡献在于提出了一种新的算法框架,在大规模语料库中提取出大量候选样本,并筛选出与真实样本具有较高相似度的文本内容作为补充学习数据;随后基于预训练语言模型对筛选出的候选样本进行预测以生成伪标签,并将真实标签与伪标签混合用于后续微调优化;值得注意的是,在本文提出的方法中,并未直接依赖于预训练任务的支持。

全部评论 (0)
还没有任何评论哟~
