【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation
BLEU的意义
在计算语言学的研究实验中,研究者期望实时监控机器翻译的质量(如每几小时甚至更频繁)。然而人工评估的方法无法达到该要求,因而导致了机器翻译技术发展面临诸多限制,难以有所突破。
BLEU作为一种自动翻译评估方法,目的是解决这一问题。
BLEU的全拼(Bilingual Evaluation Understudy)
BLUE原理
- 核心思想:机器翻译与人工翻译最为接近。
- 实现方法:采用数字量化指标的方法。
- 必须条件:建立高质量的人工译文资源库。
举例一:n-gram匹配


在候选1中与参考译文重合部分:
该指南旨在指导行动哪些确保军事方面始终遵循党的指令
在候选2中与参考译文重合部分
- It is
- to
- forever
- party
据此匹配结果,判断候选1优于候选2
举例二:n-gram精确度
最简单的精度定义方法:1-gram匹配数 / 候选句子长度
对于那些过于简单且缺乏深度的度量标准而言,在应用机器学习模型时容易出现‘过拟合’现象——即模型虽然在训练数据上表现优异但在实际应用中效果大打折扣。这种情况下机器学习模型容易‘过拟合’导致生成的结果看似完美实则存在明显的缺陷例如以下这个案例达到了完美的准确率

因此需要对规则进行补充(类似于加正则化)
修正版1-gram精度
核心思想:当参考译文中的一个词被匹配后就被消耗掉
- 统计当前词在多个参考译本中的频率
- 取该词在各个译本中的最高频率与候选句子中的出现率的较小值
- 将所有词汇的成功匹配率累加后除以候选句子的总长度

修正版n-gram精度
1-gram主要侧重于词汇使用,并未考虑到词语顺序的影响。 由此可见,这种方法无法全面衡量质量。 因此该方法可以较为轻松地扩展到n-grams方向。
混合n-gram精度
最初想到的一种混合方法就是采用线性加权混合的方式。经过实验分析发现,在n-gram规模增大时,精度下降并非线性变化而是呈现指数级衰减的趋势。因此,在加权过程中必须注意到这一点。

文章中并没有给出具体结合公式,只说是均匀权重的对数加权

冗余惩罚
句子不宜太长或太短,在一定程度上n-gram精度可以解决这个问题
- 如果一个句子太长,则会引入多余的词汇(这些词汇在参考译文中并未出现),从而影响翻译质量。
- 然而如果一个句子太短,则不会对翻译质量产生负面影响。
- 通常情况下,在处理较短的句子时会同时考虑precision和recall指标来平衡长度问题。然而,在BLEU评分标准中包含了多种不同风格的参考译文样本,这导致了recall指标的效果不理想(因为我们期望的是单一风格的译文而非混合风格的结果)。

简洁惩罚系数(brevity penalty factor)

- 其中:r代表参考译文中的最优平均长度总和(Sum),c代表所有候选译文的平均长度总和(Sum)。
- 最佳平均长度的标准:假设某候选平均长度值为9,则参考各候选下的标准值分别为7、10、12,则最优标准设定值取最接近的实际值即为10。
- 在实际应用中:
- 当实际应用中的候选平均长度超过基准标准值时(即实际应用中的c > r),惩罚系数设为1(BP=1)。
- 反之,在其他情况下(即实际应用中的c < r),惩罚系数设为小于1的值(BP<1)以施加惩罚。
需要注意的是,在这种情况下 简洁惩罚 不仅不考虑源语言长度 而且 是一种全局性的考量机制 不论何种情况 都基于全部语料库进行评估 结果表明 这种策略能够有效平衡翻译质量与效率
BLEU的计算方式

- 通常建议取N为4
- 权重w_n通常设定为1/N的形式
- BLEU值最大不会超过1(当译文与参考文本完全一致时达到上限)
- 展望未来, 能够满足您的需求的翻译方案总是存在的
关于BLEU可靠性的一些实验
实际上无需再进行实验了,BLEU这一指标自使用时间长达近20年仍未被其他指标取代,无需再对其有效性提出质疑。
需要注意的是,为了验证其优越性,BLEU方法在理论上指出即使仅有一个参考译本仍能有效评估,其前提条件是这些参考译本具备不同的风格特征,从而确保多样的风格分布。
目前机器翻译测试数据集中普遍采用单一参考译本的情况,但在风格一致性方面尚缺乏系统化管理。
