Advertisement

《Cost-Sensitive BERT for Generalisable Sentence Classification with Imbalanced Data》阅读笔记

阅读量:

https://arxiv.org/pdf/2003.11563.pdf

1.常见NLP数据增强+BERT在失衡数据上的表现

该任务属于二分类问题,并将正负样本的比例设定为分别为28%及72%,其中将'propaganda'定义为宣传内容而'non-propaganda'则被定义为非宣传内容。

BERT模型采用BERT_base,增加全连接层,用于对句子编码分类。

常见NLP数据增强方法详见https://arxiv.org/pdf/1901.11196.pdf

评估结果如下:

基于同一份数据集,在其中75%的数据用于训练阶段而25%用于测试阶段(亦即在类似的数据分布下进行验证),未采用数据增强技术的情况下BERT的表现最佳。

可能是因为有上下文的word embedding并不能从数据增强中受益。

在非相似数据集上的验证结果表明,在进行同义词插入及移除操作时并未取得预期的优势(甚至可能造成负面影响)。相比之下,在过采样策略下的模型表现优于无增强方法,并且提升了约4%的准确率。这可能与引入了额外的噪声有关。因此,在过采样策略下模型不仅提升了分类能力,在泛化能力方面也有所增强。

进一步的实验显示:

上采样提高了正类样本的召回率以及负类样本的准确率,并降低了正类样本的准确率以及负类样本的召回率。

其中正类召回率提升和副样本召回率损失都比较显著。

2.BERT + cost-sensitive loss

基于成本的分类是一种替代方案,在这种情况下可能会对各类样本产生不均匀的影响;相比之下,则会提供一种更为均匀且持续的权重分配。

cost-sensitive loss的原理:

Weighted Cross-Entropy Loss Function, please refer to the PyTorch documentation for further information.

效果评估:

在特定区间内,在验证集上计算得到的F1值随着少数类样本权重的逐步提升而持续上升,在超过一定界限时趋于平稳

说明,结合合适的权重,cost-sensitive loss能够提升泛化能力。

全部评论 (0)

还没有任何评论哟~