NLP中数据集的切割方法研究

阅读量：

NLP中数据集的切割方法研究

ACL 2019杰出论文奖 : We need to discuss canonical divisions

获奖理由

本文提出了对评估NLP模型性能常用标准的质疑。
该文采用了词性标注任务用于揭示相关问题。
该文推荐模型排名采用基于随机切割法作为关键指标进行评估。

摘要

自然语言处理领域的标准做法是将数据集划分为训练集、验证集和测试集，并根据系统在测试集上的性能评估结果来进行排名。然而，在大多数情况下仅依赖单一划分方法来评估模型性能显得不够严谨，并且这种方法难以全面反映系统的实际表现稳定性。为此我们需要一种更为可靠的方式来评估不同划分方法下的系统表现差异为此我们建议采用随机生成的不同划分方法来进行系统比较。

问题背景

在自然语言处理领域中，在采用预留测试集方法的情况下，默认的做法是评估模型性能。
- 这种方法可能导致模型在训练数据上表现良好但在测试数据上表现不佳的情况。
- 这种现象被称为出版偏见。

假设有标准集合G存在，则将其划分为三个互斥的数据子集：训练数据集为 $G_{train}$ 、验证数据集为 $G_{val}$ 以及测试数据集为 $G_{test}$ 。假设模型S具有可调节的参数以及超参数配置空间，并引入一个度量函数M用于评估其性能表现：该度量值越大则反映模型性能越优。为了使模型达到最佳性能目标，则需通过优化度量值在训练集上的表现以及在验证集上的表现。一般而言认为测试结果指标如 $M(G_{test},S_1)$ 与 $M(G_{test},S_2)$ 之间存在数值关系；然而实际上它们被视为随机变量，因为每个指标都代表了不同运行结果的可能性分布特征。进而可以通过统计检验方法分析两者之间的差异

$\delta=M(G_{test},S_1)-M(G_{test},S_2)$

$\delta$ 是度量两个模型间差异的一个随机变量。当 $\delta$ 等于零时，则两者的性能等同于。

研究表明，在2017年ACL的所有相关研究中

重现实验

数据集

Peen Treebank-3 中的 Wall Street Journal（WSJ）部分
在 Peen Treebank WSJ 中一小部分经过重新标注的数据

模型

作者在英文词性标注任务上重现了2000-2018年间所有的当时最先进的模型。

实验结果

实验1：使用标准切割方法

实验2：重复20次随机切割

该研究旨在对左右两侧模型的表现进行了系统分析。预期中A侧模型普遍优于B侧model然而经过实际测试发现这一预期并不成立

在总共20次切割操作中完成假设检验后发现，在所有情况下第二个模型的性能明显优于第一个模型。

解决方法

- 更多地使用随机切割的方法来验证模型的性能。

基于随机切割的方法中推荐采用统计检验方法来进行当前模型与现有最佳模型表现差异的比较。

验证模型的性能。

基于随机切割的方法中，推荐采用统计检验方法来比较当前模型与现有最佳模型的表现差异。

全部评论 (0)

还没有任何评论哟~

NLP中数据集的切割方法研究

NLP中数据集的切割方法研究 ACL2019杰出论文奖:Weneedtotalkaboutatandardsplits 获奖理由 1.本文质疑了评估NLP模型性能时公认且广泛运用的方法。 2.本文使用...

论文研究 | 图像分割中数据标注方法

随着人工智能领域的探索不断深入，高铁和城市交通逐渐走向智能化，越来越多的图像识别算法应用在辅助导航、自动驾驶上。在实际场景中，高铁在行驶过程中会面临一些极端情况，例如泥石流灾害、轨道脱轨等，对于这些极...

图像分割主要研究方法

图像分割是图像处理中的一项关键技术，自20世纪70年代起一直受到人们的高度重视，至今已提出了上千种各种类型的分割算法，现提出的分割算法大都是针对具体问题的，并没有一种适合于所有图像的通用分割算法，而且...

NLP中的数据增强方法！

🥇作者简介：大家好我是uu人工智能硕博在读、精通python、某大厂nlp算法经历、机器学习、深度学习、自然语言处理、计算机视觉 🥈个人主页：uu主页觉得uu写的不错的话麻烦动动小手点赞👍收藏...

NLP中数据集（语料库）中的概率统计方法

一、NLP中的一维随机变量X的概率分布统计方法：假设我们的语料库为一个字符串：str=‘abcaaba’ 那么X的可能取值为：X=a,X=b,X=c 我们假设有一个滑动窗口，窗口的大小为1个字母（在...

基于wine葡萄酒数据集的分类方法研究

目录一、问题阐述 1.1、数据集信息 1.2、可解决的问题二、设计目的三、实验需要的平台四、基本原理分析 4.1、逻辑回归算法基本原理 4.2、支持向量机算法的基本原理五、实验过程阐述及实验...

数据集的跨学科研究：数据集的跨学科研究和应用

1\.背景介绍 1.1数据集的重要性在当今信息爆炸的时代，数据已经成为了各个领域研究的基石。数据集是一种组织和存储数据的方式，它包含了大量的数据样本，这些样本可以用于训练机器学习模型、进行统计分析、...

数据分析在平台经济中的应用研究方法：如何研究数据应用？

平台经济,数据分析,数据应用,研究方法,算法模型,案例分析,平台数据,用户行为, 1\.背景介绍平台经济作为一种新型的经济模式，以其连接用户和提供商，创造价值和促进交易的方式，迅速崛起并成为全球经济...

NLP 的研究任务

自然语言处理（NaturalLanguageProcessing,NLP） NLP的研究任务自然语言处理（NaturalLanguageProcessing,NLP） 1\.机器翻译2\.情感分析3...

JS 数据监听方法研究

之前模拟了一个在HTML标签中通过自定义的yjbbind和yjbmodel来进行数据绑定的，效果很不好。指令解析及数据绑定应该是在解析DOM树时做的，采用getAttribute和querySelec...

是否确定退出登录?

NLP中数据集的切割方法研究