Advertisement

NLP 评价标准 - BLEU

阅读量:
BLEU

论文:https://aclweb.org/anthology/P02-1040.pdf
思想:数词是否在ground truth里

举例

原文:猫坐在垫子上
机器翻译:The cat sat on the mat
人工翻译:The cat is on the mat

1-gram

可以看到机器翻译6个词,有5个词命中参考译文,那么它的匹配度为 5/6.

2-gram

2元词组的匹配度则是 3/5。

3-gram

3元词组的匹配度则是 1/4。

4-gram

4元词组的匹配情况就没有了。

存在的缺点

句子过短的情况
例:
机器译文:The cat
参考译文:The cat is on the mat.

解决方法
增加惩罚项系数

其中r为参考翻译的长度,c为机器翻译的长度。

BLEU总公式

因此上面的例子的结果为

log domain会更明显一点:

BLEU的优缺点
优点
  • 方便、快速,结果比较接近人类评分。
缺点:
  • 不考虑语言表达(语法)上的准确性;
  • 测评精度会受常用词的干扰;
  • 短译句的测评精度有时会较高;
  • 没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定;

BLEU本身就不追求百分之百的准确性,也不可能做到百分之百,它的目标只是给出一个快且不差的自动评估解决方案。

全部评论 (0)

还没有任何评论哟~