关于本站 联系本站 English
首页
| 登录论坛|
| 新闻 | 观点 | 本地化 | 培训 | 测试 | 招聘 | 国际化 | 知识库 | 专题 | 会员区 | 本站月报 | 关于本站 | English |
用户: 密码: 验码:  
栏目导航 网站首页>>知识库>>标准与规范

TMX:构建翻译记忆数据交换的标准
  发表日期:2008年3月28日  共浏览12855 次      作者:崔启亮  【编辑录入:giltworld
     字体颜色:    【字体:放大 正常 缩小】  【双击鼠标左键自动滚屏】 【图片上滚动鼠标滚轮变焦图片】 

翻译记忆(TM)是计算机辅助翻译(CAT)领域广泛采用的技术之一,借助TM技术可以显著提高翻译效率,保证内容一致性。由于采用TM技术开发的CAT软件种类繁多,翻译记忆内容的存储格式千差万别,为了便于翻译机构以及CAT工具之间的翻译记忆数据交换,一种称为TMX的开放标准已经成功应用到本地化和翻译行业。

TM技术概述

在软件和网站本地化翻译的过程中,这些需要处理的数据文件内部经常有不少重复的内容,另外由于内容经常更新,而这种更新都是基于以前版本的内容进行的,只是增加了少量新内容或者对原来的内容进行了少量修正,所以很有必要充分利用以前版本已经翻译的内容,而不需要重新翻译。

如何有效地重复利用这些已经翻译的内容呢?TM技术就是一种比较实用的手段,它采用片断(Segment)和翻译记忆库的方式提高翻译的效率,翻译数据库以“翻译单元(Translation unit)”为数据单位,将源语言的各个句子与目标语言的句子建立对应链接关系。翻译人员采用TM的辅助翻译工具翻译内容时,翻译工具不断将最新翻译的内容存储到翻译记忆库,对于要翻译的内容(如单词、短语、句子、段落),它先在翻译记忆库中搜索该内容是否有匹配的内容,并且自动提供最接近的译法,翻译人员可以将其方便地插入最匹配的翻译内容。

具体而言,当翻译的内容100%匹配时,翻译记忆库中的相关翻译直接插入到翻译文字中;当匹配率小于100%而大于某一设定的阈值(模糊匹配)时,翻译记忆工具将相应的翻译内容提示给翻译人员,供翻译人员参考,他们选择最接近的翻译内容,然后经过简单的编辑处理即可完成翻译;当需要翻译的句子的匹配率低于设定的阈值时,按照新内容对待,不提供任何翻译提示,翻译人员需要手工翻译,这些翻译的新句子内容自动存储到翻译记忆中,方便将来搜索和重用。

随着翻译内容的不断丰富,翻译记忆库的容量不断增加,在翻译过程中翻译人员与计算机达到有效的人机交互,翻译人员不必为相同内容的再次重新翻译而苦恼,只需要专注于需要翻译的新内容即可,而且翻译记忆的准确性也能保证相同内容翻译的一致性。让计算机“聪明”起来,使翻译人员“解放”出来,这是采用TM技术追求的目标。

TMX的历史由来

经济全球化的不断深入,软件/网站的本地化和全球化行业迅速发展,与此相呼应,各个采用翻译记忆技术开发的本地化工具和翻译记忆工具越来越多,但是这些工具是不同的厂家开发的,每家都有各自的文件数据存储格式。另外,对于一个本地化服务机构来说,经常为不同客户或相同客户的不同项目提供本地化翻译服务,由于不同客户和不同项目需要使用不同的本地化工具,经常由于各个本地化工具文件数据缺乏可以交换的标准格式,因此,很难重复使用以前积累的翻译记忆库资源。

显然,翻译记忆库的标准格式亟待统一,制定翻译数据交换的标准已经成为本地化/全球化行业的当务之急,它可以使行业内部服务商、客户和工具开发商加强信息处理的统一性,实现业务共赢。正是市场需求的不断增长和翻译记忆技术的双重推动,才使得TMX标准呼之欲出。

TMX标准的最初讨论需要追溯到1997 年 6 月,当年参加本地化行业标准协会(LISA)会议的与会者,包括本地化客户、工具提供商及本地化服务提供商召开了一个小型的会议,针对与日俱增的本地化工具的翻译记忆数据不兼容问题进行了讨论,会后这些成员形成了 LLSA 的一个专门团体,即 OSCAR(Open Standards for Container/Content Allowing Re-use),而 TMX 规范正是 OSCAR 的一个最重要的成果。

TMX功能提要

TMX是由LISA所属的OSCAR组织开发的一种独立于各个厂商的开放式 XML 标准,用于存储和交换使用计算机辅助翻译(CAT)和本地化工具创建的译文记忆(TM)数据。TMX 的目标是减缓不同工具和/或翻译机构之间译文记忆数据的交换,在交换过程中减少或者避免重要数据的损失。

TMX的目标是在保证翻译数据内容的前提下,为不同本地化和翻译工具制定中立的数据交换标准,现在市场上已经越来越多的本地化翻译工具提供对TMX标准的支持。

据OSCAR组织的行业调查结果显示,翻译记忆资源已经成为本地化/全球化服务机构不断增加的战略性资产,在某种程度上已高达百万多美元的价值,在数以亿计的国际商务中发挥着重要作用。TMX标准提供了保值这些公司资产的功能,使它们不会随着市场和技术的更新而造成损失,而且不受特定计算机辅助翻译工具的束缚。

TMX 结构解读

TMX文档以<tmx>为根元素,<tmx>元素包括 <header> 和 <body>两个元素。

<header>包含文档的元数据,除了<header>属性,也能在 <note> 和 <prop> 元素中存放文档级别的信息,使用 <ude> 元素列出用户定义的任意字符。

<body> 是翻译单(<tu>元素)的集合,用片断组织翻译单元,这种集合与组织顺序无关。文本片断包含在翻译单元(<tu> 元素)中,每个 <tu>元素包含一个或多个<tuv>元素的翻译单元变量,而这些翻译单元变量分别是同一个翻译单元不同语言的译文。每个<tuv>元素包含片断和给定语言相关的片断信息。在<seg>元素存放实际文本,所有从源文档继承的格式化信息都保存在内嵌元素(inline)中,<note> 和 <prop>存放与各个特定<tuv>有关的信息。

片断的大小不受限定,通常是一个短语、一个句子或一个段落。大多数采用TMX标准的工具中,片断的大小都是以一个句子为单位。TMX个各个片断中,包含许多可选元素,存放改变字体、超链接等的片断格式信息。TMX还定义页脚和索引项等内容。

片断包含很多标识内容元素: <bpt>, <ept>, <it> 和 <ph>,这些元素可以封装原始语言的内嵌代码。在<hi>元素中可以添加与内嵌代码无关的额外标识,用于封装内嵌代码的<sub>元素可以分隔嵌入的文本。

TMX 的实施级别

根据实施TMX的不同要求,TMX包含一级和二级两种实施级别,分别支持普通文本和内容标记。

在仅支持纯文本的第一级TMX中,每个片断元素 (<seg>) 中的数据都是不包括任何内容标记的纯文本。通常情况下,如果所要处理的数据不包含任何内嵌代码,则仅实施第一级就够了。在此种情况下,由于文本片段内的任何格式或其他信息都被丢失,因此仅可以获得模糊匹配的翻译内容。对于某些要求丰富格式的文档而言,这种处理就远远不够了。

在支持内容标记的第二级TMX中,支持第二级的本地化工具允许文本片段内包含内嵌代码。在这一级别上,TMX通常会保留下列信息:此文本片段中包含内嵌代码;该内嵌代码在此文本片段内的位置信息;某些设计完美的工具往往还会记录内嵌代码的类型如粗体或者链接等。为了实现精确匹配,大多数本地化工具都提供对第二级的支持,这些支持TMX二级功能的本地化工具,使用TMX内容标识可以仅使用TMX文档重新生成原始文档的翻译版本。

TMX的开发与认证

TMX是由LISA所属的OSCAR团体实施,这个团体的主要职责是持续改进标准的特征内容,组织TMX认证和授权TMX标识,推广TMX在本地化和全球化行业的应用。

TMX是不断更新的标准,OSCAR发布最新版本是1.4b,于2004年10月发布。与前版本相比,更新了TMX的数据格式内容,增添了一些新的特性。

OSCAR 团体在发展 TMX 这一标准的同时,为了确保相关工具开发商的产品确实符合 TMX 规范,推出了相应的认证机制,不同本地化和翻译工具开发商开发的各种本地化工具只有通过了LISA指定的第三方实验室实施的TMX规格说明的认证,这些工具才能具有加注符合TMX的标识。

通过TMX标准认证已经成为产品技术领先的一个标志,是获得更大市场和更多用户的必要条件。现在市场上已经有多种通过TMX认证的本地化和辅助翻译软件,为了实现翻译记忆数据资源的复用和交换,请优先选择通过TMX认证的本地化和辅助翻译工具软件。


上一篇:
下一篇:CSTQB软件测试专业中英文术语对照表

 相关专题:

·专题1信息无

·专题2信息无
 
  热门文章:
 · 2007年全球翻译公司25 [39872]
 · 缺陷管理工具Bugzill [34655]
 · “本地化世界网”介绍 [32704]
 · XLSX,TBX,SDLT [31890]
 
 相关文章:
ISO 17100:国际翻译服务流程标准解读 [12797]
2010年是本地化行业标准年吗?[[英] [9986]
XLIFF:构建本地化数据交换的标准 [13078]
中国和国外翻译领域国家和地区标准介绍 [15158]

相关评论:(评论内容只代表网友观点,与本站立场无关!)
发表人:匿名

IP:14.120.55.27

发表人邮件:niming@qq.com 发表时间:2020/5/19 9:00:17
    简历模板
发表、查看更多关于该信息的评论 将本信息发给好友 打印本页
关于本站 | 网站历程 | 使用声明 | 网站地图 | 联系本站 |
本地化世界网版权所有,版权所有2003-2008
京ICP备05035404号
网站统计:    论坛统计:
页面执行时间:78.125毫秒