Advertisement

论文阅读-RankME: Reliable Human Ratings for Natural Language Generation

阅读量:

人工评价仍然是一种在NLG任务中被广泛采用的主要评估手段。本文致力于提升人工评价的质量,并通过引入新的指标体系进一步优化其应用效果。目前开源社区中较为知名的项目如CrowdFlower提供了相应的代码实现,并且这些项目大多集中于前端页面的代码开发。

相关方法

名称 全称 释义
Likert 李克特量表
ME magnitude estimation 量值估计
plan ME plain magnitude estimation 简单量值估计
RankME rank-based magnitude estimation 基于排序的量值估计

ME是在这篇论文中介绍的(看3.1那一节),原文如下:

Instead of providing participants with a fixed scale, we employed the magnitude estimation paradigm, which is capable of effectively capturing the differences between the relative strengths of acceptability or grammaticality violations

ME流程采用了拉丁方设计,每个人对句子进行了评分(评分值仅需大于零),同一个人的所有评分值则被标准化处理在0至1之间。

RankME

RankME则通过让每个人对所有的候选句子完成相对排序任务(RR)。然而,在论文中并未详细阐述具体如何实现相对排序。根据论文内容,该方法整合了三种评估尺度:连续性量表(CS)、幅度估计法(ME)以及相对评估法。

最接近的相对排名(relative ranking)的就是最后一篇论文,在这篇论文中,其流程则是将候选句子根据句子质量从高到低排列。

但是在这里,他给了ME的打分准则,我在原文中是没有看到的。

存疑之处

全部评论 (0)

还没有任何评论哟~