Advertisement

机器翻译的评价标准BLEU(Evaluation criteria for machine translation)

阅读量:

1.概念

BLEU(bilingual evaluation understudy)在这篇论文中被提出BLEU: a Method for Automatic Evaluation of Machine Translation
BLEU是一种衡量机器翻译质量的评价标准。一种基于精确度 的相似性度量方法,先看一下面的句子:

2.例子:n-gram在机器翻译译文和标准答案中出现次数不一致

在机器生成的文字中存在重复使用的词汇其频率高于标准参考文本中的词汇频率如何解决这一问题?

注:当机器生成文本中某词出现次数少于参考译文中对应词的数量时,则采用生成文本中该词出现次数;若某词在生成文本中出现次数多于参考译文中对应词的数量,则采用参考译文中该词出现次数。

3.例子:机器翻译译文长度太短

机器翻译的结果显示出猫。

the 和 cat 在回答中频繁出现,并且在每次回答中的句子长度均为2字符长度。由此得出 accuracy 达到了 100%,这同样显示出完美的准确率……然而这个翻译的表现却并不令人满意。那么问题出在哪里呢?

此前仅关注了 accuracy 这一指标而忽视了 recall 的重要性。对于 1-gram(unigram)的情况而言:R= \frac{2}{7};而对于 2-gram 的情况则有:R=\frac{3}{6};综合考虑了 precision 和 recall 后发现整体效果仍不理想……通常情况下,在标准答案中共有 10 个关键词时,在译文中我们应尽量保持接近这一数量。

4.BLEU公式

n-gram:由连续的一组n个单词组成。一个长度为m=18的英文段落包含18个不同的1-grams和17个不同的2-grams。在机器翻译系统中,我们将生成的结果用符号c_i表示,而标准参考答案则表示为

n-grams 被定义为由连续的n个单词组成的短语集合,在本研究中我们采用以下符号表示:其中w_k代表第kn-gram。例如,在自然语言处理领域中,
我们可以观察到这样的现象:"I come from china" 这句话中的双语片分布如下:
其1阶双语片的第一个窗口生成双语片'I come';
第二个窗口生成双语片'come from';
第三个窗口生成双语片'from china'。

  • 定义h_k(c_i)为翻译选译文中某内容c_i的出现频率
    • 定义h_k(s_{ij})为在标准答案s_{ij}中的内容s_{ij}的出现频率

BLEU则按下式计算

- m表示有m个标准答案

  • max_{i\in m}h_k(s_{ij})表示某n-gram在多条标准答案中出现最多的次数

  • Summation over i and k of the minimum between hₖ(cᵢ) and the maximum of hₖ(sᵢⱼ) across j in m represents the calculation of how often an n-gram appears minimally in both the translation version and the standard reference translation, which is used to solve the first related issue.

    • 分母表示机器翻译译文中所有n-gram的总和

该创新性解决方案解决了第一个关键问题,并在此过程中显著提升了性能表现。从而使得在机器翻译任务中输出较短句子时性能更为突出。为了进一步优化此方案,请考虑引入长度惩罚机制(Brevity Penalty),其中惩罚项用于对句子长度进行调整。

  • 其中l_c代表机器翻译译文的长度,在有多个参考译文的情况下,则选择与机器翻译结果最接近的有效长度。
    • l_s代表标准答案的有效长度,在存在多个参考译文中,则选择与机器翻译结果最接近的有效长度。

BLEU是一个n-grams的加权几何平均,按照下面的公式进行计算:

一般来说,N可以取4, w_n=\frac{1}{n}

这就是BLEU-4指标。其本质是基于n元组精确度加权计算得出的结果,在机器翻译中用于评估译文质量。具体而言,在译文中被正确匹配的一系列n元组数量与其在原始文本中出现频率之间的关系即为此核心指标。此外,在实际应用中我们通常会关注1元组和2元组这两个层次的表现情况以确保基本内容的一致性和完整性;而更高阶如3元组和4元组则有助于提升译文的整体连贯性和自然流畅度

全部评论 (0)

还没有任何评论哟~