NLP 评价标准 - BLEU
发布时间
阅读量:
阅读量
BLEU
论文:https://aclweb.org/anthology/P02-1040.pdf
思想:数词是否在ground truth里
举例
原文:猫坐在垫子上
机器翻译:The cat sat on the mat
人工翻译:The cat is on the mat
1-gram
可以看到机器翻译6个词,有5个词命中参考译文,那么它的匹配度为 5/6.
2-gram
2元词组的匹配度则是 3/5。
3-gram
3元词组的匹配度则是 1/4。
4-gram
4元词组的匹配情况就没有了。
存在的缺点
句子过短的情况
例:
机器译文:The cat
参考译文:The cat is on the mat.
解决方法
增加惩罚项系数

其中r为参考翻译的长度,c为机器翻译的长度。
BLEU总公式

因此上面的例子的结果为

log domain会更明显一点:

BLEU的优缺点
优点
- 方便、快速,结果比较接近人类评分。
缺点:
- 不考虑语言表达(语法)上的准确性;
- 测评精度会受常用词的干扰;
- 短译句的测评精度有时会较高;
- 没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定;
BLEU本身就不追求百分之百的准确性,也不可能做到百分之百,它的目标只是给出一个快且不差的自动评估解决方案。
全部评论 (0)
还没有任何评论哟~
