这项研究由 Acolad Labs 牵头,以前一阶段的洞见为基础,涉及了真实世界的内容,以确保实用性。研究包括两个主要部分:第一个部分侧重于纯粹的自动翻译,对神经机器翻译 (NMT) 和大型语言模型 (LLM) 的性能进行评估,不需要任何人工后期编辑。第二部分涉及采用“人机回圈”方法,由专业语言专家审查和完善机器生成的译文,评估人类与 AI 协作的综合效率和质量。人工审查由第三方语言服务提供商进行,以确保评估的独立性。
这一阶段包括额外的混合层语言,特别是法语、罗马尼亚语、瑞典语和中文。我们使用了基于以前的学习而改进的提示库,并且为 AI 模型提供了增强的术语和风格说明。这包括来自机器翻译的术语表清理技术和跨模型提示抽象技术。我们在 AI 翻译领域引入了更广泛的比较,对多个神经网络机器翻译系统和大语言模型进行了评估。
该分析采用了真实世界的内容,包括格式化、带有内联标记进行风格化,以及有术语依赖关系的内容:这些都是常见待译内容类型的典型代表。这些内容使用我们的翻译管理系统以常规方式进行预处理和解析,再将自动输出结果与熟悉测试内容领域的语言专家的专业译文进行比较。
LLM 会收到提示,将其输出限制在特定的术语和风格内,同时我们还采用了其他技术,例如一次性/几次提示抽象,以尝试改进 LLM 输出。 值得注意的一点是,不同提供商的 LLM 需要不同的提示策略,特别是在内容的技术结构方面。
对于英语到法语语言对而言,Acolad NMT 的表现优于三大 AI LLM:OpenAI 的 ChatGPT-4 (Turbo)、Mistral (Large)、Llama 2 (70b) 和我们自己的实验性 LLM。
它在 BLEU、chrF 和 COMET 这三大质量评估指标中均得分最高。
最近更新的法语 NMT 引擎在 PED 和 TER 指标(越低越好)方面也表现最佳,这两个指标用于衡量译后编辑人员为校正文本必须进行的编辑次数。
如前所述,法律硕士的成果在 COMET 考试中表现出色,该考试被认为是衡量成果语言流利程度的良好标准,其分数接近或高于第 90 百分位数。这表明 LLM 在翻译和内容生成方面拥有很好的前景,尤其是像法语这样资源丰富的语言。然而,COMET 的高分数可能与客户对准确性、术语表和风格的期望不一致。
在英语到瑞典语的翻译中,结果类似,NMT 的表现再次全面优于各大 LLM 模型。
对于英语到简体中文语言对而言,除 BLEU 外,NMT 引擎在所有其他指标中均表现最佳。中文等表意语言的结果仍然时好时坏,但随着标记化(将句子分解为更易于管理的大小的方法,如分解为单词或子词)的改进,后续新模型的结果可能会有所改善。 值得注意的是,一些专家认为 COMET 是更实用的质量指标。
在我们最后一种测试语言 — 罗马尼亚语中,尽管结果非常相似,但 OpenAI 的 ChatGPT-4 在所有指标上的表现都略优于 NMT 模型。我们的团队将使用此结果进一步迭代并改进该机器翻译模型。与所有 NMT 系统一样,语言模型也必须不断更新、优化。
不过,值得注意的是,即使质量指标的分数较高,LLM 也会出现一些其他意想不到的怪异现象。我们先详细说明一下这些质量分析,然后再探讨此问题。