查看原文
其他

实践答疑|翻译语料库建设项目前期需要准备什么?

The following article is from 翻译技术沙龙 Author 师建胜


近年来,翻译语料库方面的项目建设在各高校翻译专业得到越来越多的重视,相关项目陆续获批开工,而相应的专业研讨会和培训也如雨后春笋般在全国各地开展。不少学校因而跃跃欲试,想开展这方面的工作。
然而,语料库建设并非易事,只有一腔热情是远远不够的。在项目的前、中、后期会涉及到许多专业知识、资源、工具、方法,当然也包括专家的经验。项目参与人员需要进行系统学习和整体规划。
本文从以往成功项目经验出发,简要介绍语料库建设前期需要做的考虑和准备工作,为开展此类项目的申请者和决策者提供参考。


一、项目建设背景和需求分析
一切项目,源于客观的需求,成于实现的价值。一个成功的语料库建设项目亦是如此。申请者和决策者需要深入思考和明确语料库建设的背景和现实发展的需要。
语料库建设项目,通常需要考虑:1. 学科建设和发展的需要。学校/学院要提升本专业的水平,要申办BTI或MTI,要服务国家、地方、行业、跨专业合作等,这些都要明确下来。

2. 专业科研的需要。学校/学院师生需要依托建成的语料库来开展相应的研究,这个需求要细化分析。不同科研的需求会影响语料库建设中所采取的实施细节,例如语料类型、数量和质量、标注体系等等。
3. 专业教学的需求。建成的语料库如何用于专业教学,使用场景和方法,也会影响语料库建设的方案。这些都需要提前跟专业师生沟通清楚,形成详细的需求报告。

二、项目建设的目标
项目讲究“以终为始”。一个清晰明确的目标对于项目的规划和实施具有重要的引领作用。
语料库建设的主要目标要素包括:1. 语言种类。要建设单语语料库、双语平行语料库、多语言语料库、类比语料库等等;双语平行语料库,是否需要支持语言互换,如此种种,都要明确下来。
2. 语料的规模。很多人对语料规模暂时还没有清晰的概念,尽管大家都说“几十万”“上百万”或“数百万”,有的是指的字数/字符数,有的是指的句对数,这就要相差几十倍了。建多大规模合适,跟上面的背景和需求紧密相关。

3. 后续的语料增长机制。语料库的建设,很难是一劳永逸的。往往是初期先建好框架和部分数据,后续采取长效机制不断补充语料。这也是在项目规划阶段需要考虑清楚的。
三、语料的来源和收集
语料从哪里来?这是建设翻译语料库必须要考虑清楚的。
通常有这么几种来源:1. 自有语料资源。本学院师生完成的翻译实践项目。
2. 外部公开资源。网络上公开的、没有版权争议的或者允许以学习研究为目的而收集的语料资源。
3. 专门购买资源。从一些机构购买或有偿使用相应的语料。

四、语料加工处理
并不是把语料收集或购买来,就完事大吉了。原始语料只是原材料,在建设语料库的过程中,还需要根据上述需求和目标,进行专业化的加工和处理。
这些步骤包括:1. 语料对齐工具和技术支持。把收集来的语料,按照段落、句子等不同结构,对齐成双语平行语料。当语料的规模比较大时,单靠人工就不行了,需要专业工具进行自动化和半自动化地处理。
2. 语料对齐与质量检查。对齐之后,还需要对语料对齐质量进行检查和评估,达到一定的正确率之后,才可进入下一道工序。
3. 语料标注体系。语料的标注,是语料库建设中的重中之重。标注体系是否专业合理,是否满足未来的使用需求。
4. 语料标注过程和质量控制。标注方法是否精确高效,会影响到语料库的建设质量。
五、语料库建设和使用
把语料对齐、形成双语的 txt或tmx文件,只是完成了语料库的初步工作。要发挥语料库的价值,就要建设相应的语料库检索、展示、数据管理等平台。
这方面涉及的工作很多。简单而言,至少包括:1. 语料库检索和展示。用户如何检索、查询、展示和使用语料库,需要跟用户做详细的需求调研,开发适用的查询页面和交互功能。
2. 语料库数据与后台管理。语料库也是数据库,如何进行数据库设计、数据安全管理、人员角色和权限管理等等,需要专业处理。

六、小结
翻译语料库的建设是一项比较复杂的工程,需要汇聚各方面的专家、资源、工具、技术、方法和经验。在前期准备阶段对项目整体进行细致全面的规划和决策,有助于项目建设过程顺利进行并取得预期效果。


资讯推荐


翻译技术案例分析

- END -



转载来源:翻译技术沙龙公众号

转载编辑:王琳

审核:朱华 李丹平


▶ 技术与工具

常见翻译质量保证工具一览

国内外常见语料工具一览

国内外常见术语管理工具

翻译必备术语库和语料库合集(附网址)

翻译必备的计算机翻译辅助软件(附网址)

计算机辅助翻译工具-memoQ 核心功能概览

小牛翻译 Trados 插件新增术语词典功能


▶ 专访

王华树:机器翻译将要取代人工翻译吗?

崔启亮:机器翻译对语言服务企业有多大作用?

韩林涛:文科生如何学习机器翻译?

魏勇鹏:机器翻译质量评估为什么重要?

徐彬:熟练掌握翻译技术,就能做出漂亮的活儿

曹首光:如何打造一款受欢迎的机器翻译产品? 

李梅:机器翻译对未来翻译教育有何影响?

周兴华:高校翻译教师如何学习翻译技术?

丁丽:译后编辑人员与译者身份是否对等?


▶ 实践答疑

一文读懂本地化

如何高效地将机器翻译结果进行译后编辑?

Trados扫盲贴:90%计算机辅助翻译初学者都会陷入的误区

你的多数困惑在《翻译技术100问》中都能找到答案

如何进入全球顶尖翻译大厂:谈谈简历投递雷区


▶ 行业洞察

2021年语言服务行业回顾与展望

2022年翻译行业将迎来哪些新变化

中国电影对外译介的现状与思考

冯志伟:关于机器翻译行业发展的三点建议


▶ 教育创新

王华树 刘世界:人工智能时代翻译技术转向研究

崔启亮:翻译技术教学案例资源建设和应用研究

曹达钦 戴钰涵:人工智能时代高校翻译技术实践环境建设研究

李梅:如何给“技术小白” 开设计算机辅助翻译课程?

张慧玉 崔启亮 徐开:实践导向的MTI人才培养模式——以对外经济贸易大学为例

李长栓:MTI论文千篇一律,如何破局?


继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存