夺冠!小米在 IWSLT 2022国际机器同传比赛中获佳绩
小米又双叒叕获奖啦!
这已经是小米在 IWSLT 比赛中的第二个“冠军”!

近日,第十九届国际口语机器翻译大会(International Conference on Spoken Language Translation ,简称 IWSLT)在爱尔兰都柏林落幕。本届 IWSLT 发布的机器同传任务相比往届难度大大提升,小米AI实验室与北理工语言智能和社会计算研究所联合团队凭借其卓越的技术优势,获得“英中文本同传”(Text-to-Text)赛道冠军。这是小米继获得 IWSLT 2020 开放领域**“中日文本翻译”**赛道冠军后在机器翻译领域的再一次实力展现。
IWSLT 始终聚焦于语音翻译领域热点问题和应用难题,每年都会发布不同类型的口语机器翻译任务,通过比赛推动技术发展和交流,吸引了众多国内外公司和科研机构参与。大赛至今已经举办18年,已成为机器翻译领域最具影响力的国际赛事之一。
近年来,受新冠疫情影响,大量线下会议和授课活动转为线上,直播的兴起也涌现了大量的实时外语视频,常规的语音翻译难以满足这类场景的实时翻译需求。机器同传应运而生,通过综合利用语音识别(ASR)和机器翻译(MT)等AI技术,在不打断说话人发言的情况下将语音内容实时翻译成另外一种语言**,**帮助人们便捷高效低成本的实时理解外语音视频内容。
**官方实测!**小米表现亮眼

学术界一般采用翻译质量和翻译延时两个指标来综合评价机器同传系统性能。上图展示了“英中文本同传”赛道上不同系统的延时-质量关系。横轴表示延时,纵轴表示质量,延时越小质量越高则代表系统综合性能越强。由此****可见,小米同传系统综合性能最好。
注:AISP-SJTU:思必驰-上海交大联合团队;HW-TSC:华为文本机器翻译实验室。

根据 IWSLT 评测规则,在“低-中-高”三个不同的延时区间上,BLEU 越高代表系统性能越好,尤其在低延时区间获得高翻译质量更能凸显同传系统的优异性和实用性。上表展示了“英中文本同传”赛道的详细结果。在“低-中-高”三个翻译延时区间上,小米系统的翻译质量都要显著优于其他系统,尤其在小于2秒的低延时(Low Latency)区间上,小米同传系统质量比其他系统高35%以上。
注:上述结果来自 IWSLT 2022 评测总结报告(https://aclanthology.org/2022.iwslt-1.10.pdf)
**夺冠系统!修炼之路漫漫
**
机器同传不仅要追求高质量还要保证低延时,难度远大于常规的语音翻译,小米团队从**“鲁棒性”、“模型训练”、“数据增强”、“解码策略”** 四个方面入手调优系统,实现了延时和质量的平衡并最终胜出。
1. 鲁棒性
相比往届测试集使用标准无误的文本作为输入,本届比赛测试集改为采用语音识别文本作为输入,目前的商用机器同传系统普遍采用“先语音识别再机器翻译”的级联模式,因此本届比赛更贴合实际场景。同时,主办方提供的基线 ASR系统词错误率高达30%,极大增加了低延迟条件下生成高质量译文的难度。为了应对本届比赛这一新挑战,小米提出了如下两种方案显著提升了同传系统的鲁棒性,这也是获得优势的关键一步。 * 上游识别纠错 :基于 Transformer 构建了一个发音序列到文本序列的英文 ASR 纠错模型,纠正 ASR 的部分错误,减少对下游 MT 的负面影响。如下图所示,被 ASR 误识别为“show me”通过识别纠错后可以产生正确结果“Xiaomi”,从而产生正确译文“小米”。
- 下游翻译容错 :通过分析基线 ASR 在开发集上的识别错误类型,我们构建了源端含有相似噪音的对抗训练样本,提升 MT 对含有错误的输入的鲁棒性。如下图所示,讲话人的“founded”被 ASR 误识别为“funded”,但在上下文语境下 MT 依然能将其正确翻译为“成立”。

2. 模型训练
我们采用了多项前沿技术优化主流的 wait-k Transformer 同传模型,包括采用单向编码器提升训练效率,采用 DeepNorm 融合 Pre-LN 和 Post-LN 优势构建了包含40层编码器的深层模型以及采用 R-Drop 训练方法提升翻译质量。我们使用动态解码算法,基于模型置信度决定是否翻译,如下图所示,相比常规固定延时的翻译策略,可以针对输入选择更加合理的解码路径,提高译文质量。


3. 数据增强
采用回译和知识蒸馏等常用机器翻译数据增强方法扩充训练数据,以及基于同传领域内单语数据训练语言模型从新闻等领域外数据中选择领域相关的数据作为补充,实现对数据的有效利用。
4. 解码策略
通过对低延时下低质译文的详细分析,我们发现系统中存在的问题并提出了多种解码修补策略,例如当待翻译句子中新增识别为“the”等无意义单词时推迟翻译,这些模型以外的“补丁”看似不起眼,但对提升整个系统的性能也同样关键。打造一款优秀的机器翻译产品就像研发一套同传系统一样,只用几个算法和模型是无法包打天下,还需要很多产品策略和工程优化来共同提升整体体验。
产品落地!翻译触手可及
小米AI实验室机器翻译团队组建于2018年,作为机器翻译领域的新玩家,我们积极探索机器翻译前沿技术并已在小米手机和 AIoT 智能硬件产品中广泛落地,为小米手机用户打造了便捷好用支持多场景翻译需求的小爱翻译App。

基于小米机器同传技术,小爱翻译陆续打造了**“同声传译”、“会议秘书”、“AI字幕”、“通话翻译”** 等功能,帮助用户实现了边说边译、边听边译、边看边译,哪怕在与外国友人沟通、观看没有字幕外语视频时,也能够应对自如,极大减轻了翻译负担。
1. 同声传译
双人对话,边说边译,面对面跨语言沟通无障碍,能轻松应对全球多个国家的不同英文口音。
体验方法: 对小米手机上的小爱同学说“打开同声传译”。

2. AI字幕
外语在线会议、原声视频,实时翻译并生成中英字幕。用户观看外语视频、开在线会议时,进行实时翻译。
体验方法: 对小米手机上的小爱同学说“打开AI字幕”。目前AI字幕仅支持小米MIX 4,今年秋季将支持更多设备,敬请期待。

3.通话翻译
解决跨语言的通话障碍问题,支持双语对照,贴近日常阅读习惯,还能将通话译文自然播报。
体验方法:
①对小米手机上的小爱同学说“打开AI通话”
②打开“通话翻译”
③在来电或去电界面点击“AI通话”,选择通话翻译

4. 会议秘书
涉外会议中,直接翻译并记录会议内容,还有精细的声纹识别,将会中角色也区别开来。全面解放你的双手和头脑,把时间留给思考。
体验方法: 对小米MIX FOLD手机上的小爱同学说“打开会议秘书”。

机器翻译被誉为自然语言处理领域“皇冠上的明珠”,也是人工智能领域最具挑战性的研究任务之一。从最初人们认为几乎不可能由机器实现语言翻译,经过几代研究人员的不懈努力,机器翻译逐步从梦想走进现实,近年来深度学习的发展也显著提升了翻译质量,扩展了应用场景,惠及全球亿万用户。
其中,作为一项融合语音识别、语音合成等能力的综合性机器翻译技术,机器同传也被应用到越来越多的会议直播等产品中。在包括机器同传在内的机器翻译领域,小米将持续探索前沿技术和打磨产品体验,帮助用户打破语言壁垒,让全球每个人都能享受科技带来的美好生活。
END


