翻译记忆库技术的过去和现在

Camille Avila 2019年2月6日 读完需 10 分钟

翻译记忆库的概念早在 20 世纪 70 年代就被提出,并在 80 年代得到进一步发展。但是,直到 20 世纪 90 年代,SDL 推出可以在 Windows 操作系统上运行的 Translator's Workbench,翻译记忆库才算是取得了突破。这是首个真正广泛使用的 TM 引擎,第一个是在 1995 年诞生的 16 位引擎,然后是 1998 年的 32 位引擎(之前的几代都是针对基于 DOS 的小社区,尽管 DOS 在 90 年代早期小有名气)。

为什么我们会取得这个突破?当时的机器翻译还在发展中,质量非常差。Windows 个人电脑也逐渐成为组织和私人家庭中的主流设备,因此自由译员和组织内部译员均开始采用更多的技术来帮助他们应对数字内容大爆炸。此外,为有特定需求的受众提供专门解决方案,例如 Freelance 版,这种做法大获好评。

翻译记忆库是 CAT 工具的心脏和大脑,这种说法毫不夸张。但是,这项技术在最初还是受到了一些怀疑。快进到今天,很难想象没有翻译记忆库要怎么完成翻译,而且自 20 世纪 90 年代年以来,Trados 一直推动翻译记忆库的发展,坚持不懈地改进其使用方式,从而提供更出色的体验。


翻译记忆库的演变

SDL 在 2005 年收购 Trados,并对翻译记忆库进行颠覆性的设计,于是诞生了 Trados StudioTrados GroupShare。我们的主要目标之一是,弥补客户多年来反馈的 Workbench TM 引擎的不足之处。其中包括目标语言的相关搜索、引入上下文概念和结构匹配、使用完全基于 XML 标准的引擎等等。


扩展翻译记忆库功能

我们的翻译记忆库的功能极其丰富,经过多年的发展,推出了更多生产效率功能。我们以 AutoSuggest 词典为例。

这些词典是根据您的翻译记忆库内容创建的,在翻译流程中通过 AutoSuggest 为您提供短语或片段的翻译建议。然后,我们有相关搜索,它在翻译记忆库中搜索单词或文本块,这些内容并非来自术语库或其他来源的匹配。

AutoSuggest 词典和相关搜索对于每天使用 CAT 工具的用户而言应该再熟悉不过了,但是随着 SDL TM 的发展,还有一些更高级的功能也非常有用,您可能没有注意到。

除了支持基于句段的分段,我们的翻译记忆库还支持基于段落的分段,这在亚洲语言翻译中非常有用,因为亚洲语言的思维顺序与西方语言不同,因此通常最好是翻译段落而不是句段。有趣的是,基于段落的分段可能会随着神经机器翻译 (NMT) 的发展乘胜追击,因为它可以确保译员查看段落的完整上下文,而不是逐个句段翻译。

我们还能够使用 Trados 独有的文档结构在 TM 中提供上下文。这意味着我们不仅仅区分上下文匹配,还可以使用文档中的结构化上下文(索引标记、标题、列表项等)。通常,根据句段的结构化上下文,相同的句段需要有不同的翻译。例如,索引条目在英语中使用小写,而相同的句段在标题中需要大写。


灵活性

我们翻译记忆库的灵活性可以从独特的 RWS AppStore 中反映出来。Trados Studio 本身支持各种 TM 管理和维护方式,但如果结合其他各种先进的应用程序,您将能更加得心应手。例如,您可以得到源文本、目标文本、原文文本和译文文本,并且所有这些都用不同的文件格式表示,以下只列举其中一些应用程序:

  1. SDLXliff2Tmx
  2. TmConvert

随着人们日益关注数据和日期保护,我们推出 Trados Data Protection Suite 应用程序(可从 RWS AppStore 下载),它甚至可以隐藏 TM 中的个人数据。


可扩展性

Trados 始终对“伸缩自如的金箍棒”充满热情。这意味着我们的翻译记忆库不但要有海纳百川的胸怀,同时连接数百名用户,同样重要的是能够缩小,在个人计算机上流畅地运行,甚至能够脱机工作,满足各种应用需求。

在所有情况下,体验和性能都必须尽可能好。为此,需要一种设计方法,其中需要不同的存储机制和软件工作方式。在本地桌面环境中,我们将此称为“基于文件的”工作方式,对于多名用户同时分享相同的资源,则称为“基于服务器的”工作方式。

我们基于文件的 TM 非常适合单个用户或最多三名成员的小团队,对于三人以上的团队,基于服务器的 TM 则是不二之选,这两种 TM 均能显著提高翻译效率。

我们基于服务器的 TM 可以服务于数百名用户(Trados Studio 和 Trados GroupShare),并通过提供对集中式翻译记忆库的受控、限时访问来确保更一致的翻译。在翻译中实时分享资产,提高内容重复利用率,这一点仅在桌面环境是无法完成的。

TM 协作以不同的客户交互为基础,既有具有生产效率提升功能的基于文件的翻译记忆库,也有基于服务器共享的翻译记忆库,支持自由译员、LSP 和公司在日益加快的周转时间内处理大量翻译项目。


upLIFT 翻译记忆库技术的诞生

经过 TM 多年的不断发展,Trados Studio 2017 的发布标志着一个重要里程碑,它引入了 upLIFT 技术,将 CAT 工具的“主力军”变得更加智能。

在本博客的前文,我们讨论了 AutoSuggest 词典和相关搜索是 TM 中重要的生产效率提升功能。但是它们有一个缺点,需要手动设置和操作,这一切随着 upLIFT 技术或“片段匹配”的引入得到了解决。

片段匹配的基础技术是称为细粒度对齐的过程。由于 TM 包含成对的对齐句段(即翻译记忆库单元 (TU)),所以在句段级别上操作非常简单,例如为句段提供模糊匹配和检索存储的翻译建议。句段级别以下的操作比较困难,例如只匹配 TU 句段的一部分(例如句子中的一个短语或术语)并检索译文中的相应部分。这一切在 Trados Studio 2017 中发生了变化,因为有了片段匹配,用户不需要做任何操作就可以自动看到这些 TU 片段。

自 2016 年发布以来,片段匹配一直在改进并不断完善。现在您可以通过图标提示了解片段匹配的来源,还可以拒绝 Trados Studio 的模糊匹配修复功能自动修复的模糊匹配。

我们的改进并不止步于此。Trados Studio 2017 Service Release 1 引入了名为 LookAhead 的新功能,通过在后台检索翻译记忆库 (TM) 结果,可以更快地提供 TM 搜索结果。当您移动到要翻译的句段时,Trados Studio 将在您处理该句段时对接下来的两个句段执行查找。有什么优点?每次移动到下一个句段时几乎可以立即得到结果,因为 TM 已为您提前“检索”搜索结果(如果有)。


添加新内容变得更加容易

当然,管理和处理翻译记忆库非常重要,但除此之外,导入内容同样重要。

无论您是 CAT 工具的新手还是老用户,翻译对齐都是一种直接创建翻译资产的有效方法,主要通过利用现有内容来创建翻译记忆库。在 Trados Studio 2019 Service Release 1 中,通过添加新的对齐选择和连接功能,以及高级分割和搜索功能,我们使内容对齐流程变得更多样化和易于使用。


进一步改进翻译记忆库功能

我们提高了上下文匹配和模糊匹配的准确性,提供比以往更多的匹配项。我们不仅通过改进上下文匹配的计算方式来实现更高的精确匹配,还增强了对西方语言的词干提取能力,从而提供更佳的模糊匹配。

此外,我们还改进了针对日语半角/全角字符的识别功能,这是桌面排版 (DTP) 的典型需求,我们认为这对该市场来说是迈出了真正的一步。

最新的 Service Release 表明,我们完善 TM 的脚步从未停止,并且仍有空间更上一层楼。很高兴看到 AutoSuggest 和 upLIFT 片段匹配以及模糊匹配修复等重大创新,与 Trados Studio 2019 中改进的词干提取/模糊匹配等小发展结合在一起,显著提高 TM 的影响力。

正如您所看到的,这些年来翻译记忆库取得了长足的进步。随着翻译记忆库不断创新和增加新功能,您将能比以往更容易使用和管理 TM。

标记
Trados Studio
Camille Avila
创作人员

Camille Avila

产品营销经理
Camille Avila 是 RWS 的高级产品营销经理,在翻译行业拥有 8 年经验。目前,她负责管理 Trados 产品家族。Camille 致力开发企业市场的本地化业务,其主要职责是确保企业的内容能够被受众理解,协助企业与客户进行有效沟通。
全部来自 Camille Avila