机器翻译译后编辑 |《 What Do Post-editors Correct? 》文献推介

翻译技术教育与研究

2024-09-09

What Do Post-editors Correct? A Fine-grained Analysis of SMT and NMT Errors

作者：Sergi Alvarez-Vidal，Antoni Oliver，Toni Badia

摘要

随着神经机器翻译的不断发展，机器翻译出现由统计机器翻译到神经机器翻译的技术转向。若想要评估不同机器翻译模型对于译后编辑的影响以及了解机翻结果的特点，那么需要分析机翻译文中常见的错误类型以及这些错误对译后编辑的影响。

研究者开展了一项针对机器翻译细粒度分析的试点研究。该研究基于医学文本，先使用统计机器翻译和神经机器翻译将其从英语翻译成西班牙语，再对译文进行译后编辑。本文依托多维质量标准（MQM）对译后编辑中修正的错误进行了分类。尽管不同译员的译后编辑结果各异，但是研究仍体现出译后编辑中神经机器翻译译文修正的错误更少。与统计机器翻译译文相比，神经机器翻译译文的“准确性”类错误更少，且整体上，其错误的严重程度更低。

关键词

机器翻译；神经机器翻译；译后编辑；错误分类

研究背景

相比于人工翻译，机器翻译译后编辑在保证翻译质量的前提下生产力更高、成本消耗更低，已普遍应用于翻译行业。同时，技术发展促进机器翻译的进步，统计机器翻译逐渐转向神经机器翻译。有研究证明神经机器翻译表现要优于统计机器翻译，输出的译文更加流畅、错误更少。但现有的机翻译文质量评估多使用自动评估指标或人工评估，缺少对错误的细致分析。译文中的错误不仅反映出机器翻译的质量，不同的错误类型还会对译后编辑造成不同影响。有的错误虽然易于被发现，但修改起来并不容易。基于此背景，本文旨在对比研究在译后编辑的过程中神经机器翻译与统计机器翻译的错误类型，以及分析不同译者对相同机器翻译结果的译后编辑差异。

研究过程

1. 创建机器翻译系统

研究者选取若干公开的英西医学语料库以及网站中抓取医学内容，创建医学领域常用术语表，并建立总句段为2836580的领域专用语料库作为训练文本。使用ModernMT 2.4来训练医学领域的统计和神经机器翻译系统。

2. 评估机器翻译系统

研究者以Apertium与Google翻译为参照，使用MTEval软件评估了训练后的机器翻译系统，分别为基于短语的统计机翻系统（不考虑上下文）、基于短语的统计机翻系统（考虑上下文）、神经机器翻译系统（不考虑上下文）、神经机器翻译系统（考虑上下文），该软件可以计算单一参考下的BLEU，NIST，RIBES和WER值。

表1（本文表格均为原文截图）

结果显示，除个别数据外，训练出的机翻系统整体上要优于参照机翻系统。其中，神经机器翻译系统要优于基于短语的统计机器翻译系统。通过数据分析发现，在训练中是否考虑上下文语境对机器翻译系统的影响并不明显。基于实验结果，研究者采用考虑上下文的统计机器翻译与神经机器翻译系统来用于后续研究。

3. 机器翻译与译后编辑

研究者使用这两个机器翻译模型来翻译一篇2018年详细介绍肿瘤治疗新方法的医学论文（共791词），并邀请四位具有5-10年翻译经验、3-6年医学领域译后编辑经验的专业译者使用PET工具来对译文进行译后编辑。每篇译文对应两位译者，并追踪他们的修改过程。

4. 错误分类

研究者使用多维质量标准（MQM），将译后编辑中修正的错误按“准确性”、“流畅性”、“风格”以及“术语”四方面进行分类。分类后，统计各类别错误个数，并分别统计机器翻译与神经机器翻译的平均值以及错误的总数。

实验结果显示，在对统计机器翻译产生的译文进行译后编辑时，译者间表现出显著差异，相比之下，不同译者对神经机器翻译产生的译文进行译后编辑的结果则更加一致。
对比分析发现，神经机器翻译译文的错误修正数量平均值小于统计机器翻译，但结果缺乏统计学意义。
最显著的差别体现在“准确”类型的错误，神经机器翻译系统没有出现漏译的情况。
与前人的研究相符，机器翻译通常会展现出较多术语相关的错误。相比之下，译者在神经机器翻译中需要修正的术语错误更多。
考虑到风格方面的错误会受到译者主观判断的影响，如果将风格方面的错误修正排除在外，神经机器翻译的总错误修正数更少（统计机翻：128；神经机翻：119.5）。

表2

5. 错误程度分级与错误比例

研究者将修正的错误按照“普通”、“轻微”、“重大”及“严重”四个等级进行分级评估，发现神经机器翻译译文中“严重”等级的错误明显较少。该分级结果与前面对两者“准确性”的统计结果展现出关联性，体现了神经机器翻译在语意再现方面表现更好。

表3

最后，研究者通过计算修正的词数/修正后文本的总词数，来计算每次译后编辑的修正错误比例。结果显示，虽然统计机器翻译之间存在很大的差异，但两者译后编辑的更正平均值（25.6%）仍略高于神经机器翻译译后编辑对应的平均值（23.1%）。

表4

6. 结论与讨论

在本次医学文本英译西的翻译研究中，神经机器翻译译文错误相对较少，尤其是在漏译和错误方面，表现优于统计机器翻译。尽管神经机器翻译译文通常比统计机器翻译更加流利，但是在本研究中，两者“流畅性”错误平均值大致相同，风格方面的修正数量也相当。神经机器翻译更好地传达了源语意，但在医学领域文本中，其翻译质量距离出版级水平仍有一定差距。

同时，译者在译后编辑的过程中表现各异。尽管每篇译文仅有两名译员来进行译后编辑，我们仍能观察出修正次数更多的译后编辑版本往往会在“正确性”、“流畅性”和“风格”方面修改增多。“术语”类别的修正又另当别论。当聚焦于“流畅性”修改类别时，可以看出最大的分歧在于词序和介词使用。

未来研究者计划增加译后编辑人数，进一步研究译者在译后编辑中的多样性并聚焦于译后编辑过程中特定的错误类型。同时，还会丰富错误标注的领域和语言对，以获得更多译后编辑语料。

特别说明：本文仅供学习交流，如有不妥欢迎后台联系小编。

- END -

翻译技术教育与研究——机器翻译译后编辑专题组致力于普及机器翻译译后编辑（MTPE）相关知识，追踪国内外机器翻译译后编辑教学与研究动态！

原文作者：路佳宁

推文编辑：鲁金桥

指导/审核：王雪红肖志清

项目统筹：李鸣晨

资讯推荐

机器翻译译后编辑的研究概况

继续滑动看下一个

翻译技术教育与研究

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

机器翻译译后编辑 |《 What Do Post-editors Correct? 》文献推介

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

生成图片，分享到微信朋友圈

机器翻译译后编辑 |《 What Do Post-editors Correct? 》文献推介

您可能也对以下帖子感兴趣