Advertisement

Label Correction of Crowdsourced Noisy Annotations with an Instance-Dependent Noise Transition Mode

阅读量:

本文提出了一种基于多个注释者的标签校正方法,并结合贝叶斯框架和成对似然比检验进行研究。文章通过六个分类标准对现有方法进行了系统分析:首先探讨了注释者数量的影响;其次提出了实例相关的噪声过渡模型;接着采用贝叶斯建模方法处理标签转换矩阵;随后提供了理论支持以确保方法的有效性;最后利用尖峰和平板先验实现模型稀疏性,并提出了一种新型的标签校正算法。

我们可以采用以下六个分类标准:

  1. 注释者的数量 * 单个注释者: 在只有一个注释者提供标签的情况下,重点是模拟该个人的特定噪声模式。当专业知识有限或注释任务高度专业化时,这是相关的。例如,BLTM [17] 等方法就是为此设置而设计的,旨在学习捕获注释者标签如何偏离真实标签的转换矩阵。
    • 多个注释者: 更常见的情况涉及具有不同专业知识的多个注释者。这带来了汇总不同意见并考虑注释者可靠性差异的挑战。CrowdLayer [53] 和 GeoCrowdNet [13] 等方法是针对此设置量身定制的,结合了特定于注释者的层或正则化技术,以从群体的集体智慧中学习。
  2. 噪声过渡模型 * 实例无关: 该模型通过假设注释者出错的概率在所有实例中都是一致的,无论其个体特征如何,从而简化了问题。这是 TraceReg [8] 等方法中的一个常见假设,该方法侧重于估计每个注释者的全局混淆矩阵。
    • 实例相关: 一种更细致的方法是考虑错误概率可能因每个实例的特定特征而异。这是当前论文的重点,作者提出了一个贝叶斯框架来模拟这种实例相关的噪声。BLTM [17] 中也探讨了这一点,该方法使用深度神经网络来估计实例相关的贝叶斯标签转换矩阵。
  3. 建模方法 * 贝叶斯: 贝叶斯方法将未知的真实标签和模型参数视为具有先验分布的随机变量。这允许结合先验知识并在观察数据时更新信念。当前的论文采用这种方法,使用贝叶斯框架对实例相关的噪声转换矩阵进行建模。
    • 非贝叶斯: 非贝叶斯方法通常依靠优化技术来直接估计模型参数,而无需明确建模先验信念。许多现有方法,例如 Co-teaching [56] 和 CoNAL [58],都属于这一类。
  4. 理论保证 * 具有理论保证: 一些研究,包括当前的论文,提供了严格的数学证明来确定其方法的属性。这些保证可以包括后验一致性,确保估计模型随着数据的增加而收敛到真实模型,或者贝叶斯误差的界限,量化最佳可实现性能。
    • 没有理论保证: 许多方法都是启发式的,这意味着它们是基于直观的或经验观察而不是形式证明。虽然这些方法在实践中可能有效,但它们缺乏相同水平的理论严谨性。
  5. 先验类型 * 尖峰和平板先验: 这种先验用于促进模型的稀疏性,这意味着它鼓励许多模型参数恰好为零。这在处理高维数据时是有益的,因为它有助于防止过度拟合。当前的论文对网络参数采用分层尖峰和平板先验来实现稀疏性。
    • 其他先验: 其他类型的先验也可以使用,具体取决于模型的具体假设和目标。例如,当有关于参数均值和方差的先验知识时,通常使用正态先验,而当没有这种先验知识时,则使用均匀先验。
  6. 标签更正方法 * 成对似然比检验: 该方法将标签校正过程表述为假设检验问题。对于每个实例,它比较在关于真实标签的不同假设下观察到的噪声标签的可能性。然后选择具有最高可能性的假设作为校正后的标签。当前的论文提出了一种基于成对似然比检验的新型标签校正算法。
    • 其他方法: 已经提出了各种其他标签校正方法。多数投票是一种简单但通常有效的方法,尤其是在注释者数量较多的情况下。期望最大化 (EM) 算法是另一种流行的方法,它迭代地估计真实标签和模型参数。其他机器学习模型,例如逻辑回归或深度神经网络,也可用于标签校正。

本文的研究可以根据上述6个标准进行如下分类:

  1. 多个标注者的数量问题。本文旨在解决来自多个标注者(真实标签)的嘈杂标签问题,并多次讨论如何聚合这些标注者的标签信息。例如,在引言部分作者指出:"通常情况下,在单个实例中不同标注者之间的实质性分歧会对传统监督学习方法的应用提出额外挑战"。
  2. 提出了一种实例相关的噪声过渡模型。本文的核心贡献之一在于开发了一种能够反映实例间相关性的噪声过渡模型。
  3. 采用贝叶斯建模方法。本文将提出的噪声过渡模型嵌入到贝叶斯框架中。
  4. 提供理论支持。本文提供了该方法的理论基础支持,并包括后验一致性定理和贝叶斯误差信息界限等关键结果。
  5. 采用分层先验分布策略。在参数空间中采用了分层尖峰和平板先验分布策略,并解释了这种设计如何实现一种可解释的变量选择机制。
  6. 提出了新的标签校正算法。本文提出了一种基于成对似然比检验的标签校正算法,并用于聚合多个标注者的噪声标签以推断真实标签。

全部评论 (0)

还没有任何评论哟~