NLP中数据集的切割方法研究
NLP中数据集的切割方法研究
ACL 2019杰出论文奖 : We need to discuss canonical divisions
获奖理由
- 本文提出了对评估NLP模型性能常用标准的质疑。
- 该文采用了词性标注任务用于揭示相关问题。
- 该文推荐模型排名采用基于随机切割法作为关键指标进行评估。
摘要
自然语言处理领域的标准做法是将数据集划分为训练集、验证集和测试集,并根据系统在测试集上的性能评估结果来进行排名。然而,在大多数情况下仅依赖单一划分方法来评估模型性能显得不够严谨,并且这种方法难以全面反映系统的实际表现稳定性。为此我们需要一种更为可靠的方式来评估不同划分方法下的系统表现差异为此我们建议采用随机生成的不同划分方法来进行系统比较。
问题背景
- 在自然语言处理领域中,在采用预留测试集方法的情况下,默认的做法是评估模型性能。
- 这种方法可能导致模型在训练数据上表现良好但在测试数据上表现不佳的情况。
- 这种现象被称为出版偏见。
假设有标准集合G存在,则将其划分为三个互斥的数据子集:训练数据集为 G_{train}、验证数据集为 G_{val}以及测试数据集为 G_{test} 。假设模型S具有可调节的参数以及超参数配置空间,并引入一个度量函数M用于评估其性能表现:该度量值越大则反映模型性能越优 。为了使模型达到最佳性能目标,则需通过优化度量值在训练集上的表现以及在验证集上的表现 。一般而言认为测试结果指标如 M(G_{test},S_1)与 M(G_{test},S_2)之间存在数值关系;然而实际上它们被视为随机变量 ,因为每个指标都代表了不同运行结果的可能性分布特征 。进而可以通过统计检验方法分析两者之间的差异
\delta=M(G_{test},S_1)-M(G_{test},S_2)
\delta是度量两个模型间差异的一个随机变量。当\delta等于零时,则两者的性能等同于。
研究表明,在2017年ACL的所有相关研究中
重现实验
数据集
- Peen Treebank-3 中的 Wall Street Journal(WSJ)部分
- 在 Peen Treebank WSJ 中一小部分经过重新标注的数据

模型
作者在英文词性标注任务上重现了2000-2018年间所有的当时最先进的模型。


实验结果
实验1:使用标准切割方法

实验2:重复20次随机切割

该研究旨在对左右两侧模型的表现进行了系统分析。预期中A侧模型普遍优于B侧model然而经过实际测试发现这一预期并不成立
在总共20次切割操作中完成假设检验后发现,在所有情况下第二个模型的性能明显优于第一个模型。
解决方法
- 更多地使用随机切割的方法来验证模型的性能。
基于随机切割的方法中推荐采用统计检验方法来进行当前模型与现有最佳模型表现差异的比较。
验证模型的性能。
基于随机切割的方法中,推荐采用统计检验方法来比较当前模型与现有最佳模型的表现差异。
