查看原文
其他

精彩回顾 | 语料标注与检索技术沙龙干货盘点~

Amelia 语言服务行业
2024-09-09

点击蓝字 关注我们




沙龙嘉宾合影


都说秋天适合思念,其实更适合“闭关修炼”!经过语言资产管理与技术沙龙的第一期的沉淀,各位翻译er们在第二期语料标注与检索技术沙龙中有没有新收获呢?接下来,就由小编带大家快速回顾下本期沙龙的干货吧`~






语料库检索工具分享

外交学院的张启雯同学为大家介绍了AntConc和ParaConc两款语料工具的基础功能和基本操作。张同学首先为大家讲解了AntConc的功能,如上下文关键词检索、文件查看、定位、N元模式、关键词单、词云等。AntConc的高级检索支持多个单词的检索,还可以使用通配符检索,根据语境进行检索。需要注意的是同时检索多个单词需要确保每个单词单独成行哦~ 在语境检索中,如果想要更精确地定位所查询单词的语境和位置,可以选择设置单词的区间,就能达到一定的检索效果啦。词单可以统计某一语料库中的单词出现的次数,根据一定的筛选条件可以对单词进行排序。而词云则可以实现关键词检索结果可视化。

AntConc基础功能

AntConc上下文关键词检索

AntConc语境检索


接下来,张同学又对ParaConc的功能做了简单介绍,包括简单检索、排除、分析语言现象等。提问:小伙伴们还记得“排除”的用处是什么吗?当然,各位翻译er们可以在课余时间多多练习,操作的同时别忘了看看BFSU ParaConc的说明文档哦~






个人语料库建设

北京语言大学的王琳同学以Sketch Engine为例向大家展示了如何建设个人语料库。首先,王同学对Sketch Engine主页面做了简要介绍,接着又详细讲解了其主要功能,如Select Corpus, Word Sketch, Word Sketch Difference, Concordance, Wordlist等。Sketch Engine涵盖90多种语言,包括600多个语料库。点击该软件的主界面的Select Corpus可以选择常用语言,Word Sketch则用于在选定的语料库中查找单词的搭配等,Word Sketch Difference可以比较同一单词的不同形式、对比两个子语料库、比较两个单词的搭配,Concordance包括检索单词、检索表达、高级检索等功能,Wordlist则用于统计单词出现的频率。

Sketch Engine主页面


接着,王同学又为大家演示了如何运用Sketch Engine创建个人语料库。只需三步,即可完成个人语料库的创建,首先点击“创建语料库”,然后点击“上传文件”,最后点击“compile”就大功告成啦!注:单语、双语语料库的操作相似哦~ 同时,该软件也可用于从网络上爬取数据,在创建语料库的第二步点击“web search”,输入关键词就可以实现啦,你学会了吗?

创建单语语料库






语料处理软件——库酷

新疆大学的余子健同学为我们介绍了语料处理工具——库酷的功能,并演示了其基本操作。首先,余同学介绍了库酷的语料清理的功能。处理格式杂乱的文件时,第一步要先选中有段首编号的段落,点击“清理段首编号”;之后再点击“合并外文/中文” → “清理空白行”(此时语料已对齐)→导出(可选择导出格式),语料清洗就完成啦。需要注意的是导出时编码格式需要选择UTF-8哦!转换功能可以统一全文符号,清理所有段尾/段首空白。如果想要对齐术语表,那该如何操作呢?我们只需在基本操作栏中找到相关语料格式,就可一键对齐。完成上述操作后,记得点击”清除段首空白“等不需要的格式哦~

库酷的语料清理功能


在“预览内容模式”这一部分,余同学以字幕文件srt、ass格式为例,运用库酷打开这些格式的文件,进行文件格式转换(导出时选择自己需要的文件格式即可)。“批量处理模式”支持多种格式文件,也可以随时查看自己的转换记录。语料检索不仅支持单语搜索,还支持双语搜索。我们可以运用单语搜索查找英文表述、词语搭配、前缀搭配(如anti-)、术语查询;双语搜索支持垂直领域的检索,但是在进行双语搜索之前要务必确保语言对一致、语料已对齐。库酷语料工具支持的语种和文件格式都非常多,大家可以在日常实践中多多运用~

语料检索






语料数据采集处理与管理

厦门云译科技有限公司语料技术部主管王伟榕为大家介绍了语料生产理念和语料生产中的关键技术。秉持着“多”、“快”、“好”的语料生产理念,厦门云译科技有限公司自主研发了支持80多种语言、覆盖20个垂直细分领域的神经网络机器翻译引擎。

语料生产理念


接着,王主管又强调了语料生产环节审核的严格性,必须满足合法性要求。之后详细介绍了语料生产中的关键技术:语料开源搜寻、语料采集、语料处理、语料管理。语料来源搜寻的目标是含有双语平行语料的网站、文件或其他来源,搜寻方法主要有两种:按类别搜寻(根据网站分类定向搜寻)、按语言搜寻(根据网站语言批量搜寻,采集对象为网页存档)。语料采集将根据采集对象的类型,指定相应的采集方案,将待提取语料数据的文件采集下来,采集方案有三种:直接下载、定制爬虫抓取(主要针对页面结构一致性高,对所需语料数据可总结出有限的解析方案的网站)、通用爬虫抓取(主要针对页面结构一致性低、解析所需语料较为困难的网站)。语料处理是指语料的清洗过滤,分为三步:语料提取(从各种格式文件中提取文本语料)、语料对齐、平行语料过滤(这一步可解决清理带噪声的平行语料库的问题)。此外,王主管还提出了语料过滤的指标,分别为Zipproach、词对齐两个公式归一化、基于翻译模型、基于语言模型。其中语言模型可以过滤不符合语法的数据和表达不够流畅的数据。语料管理部分,王主管结合云译语料管理平台向我们简要介绍了其系统界面、语料管理、语料详情、术语详情、语料质检等功能。

语料过滤的过程


最后,王主管指出,完善的语料生产理念、过硬的语料生产技术、优秀的语料管理体系三者相辅相成,缺一不可。






互动答疑

各位嘉宾分享后,同学们依旧热情高涨,纷纷提问,如库酷软件可以从哪里下载?AntConc自带参考语料库怎么打开?嘉宾也一一作了解答。如果大家想了解语料标注与检索技术的更多知识,欢迎加入我们的圈子和社群共同学习!还可以获取本次活动回放与资料~


语料库+术语库交流圈


学习交流社群






福利放送

为感谢各位小伙伴的关注和支持,在此次沙龙活动中,主办方翻译技术名师课堂为大家提供了丰富的奖品,中奖名单在这里~


奖品一:100元课程代金券


奖品二:150元课程代金券



奖品三:200元课程代金券



终极大奖:语料库与术语库技术工作坊课程(价值399元)



其他伙伴是不是羡慕了呢?别着急!翻译技术名师课堂还将不断推出系列公益讲座、沙龙活动。关注我们:

就能及时获取资讯!


如果各位小伙伴有感兴趣的活动主题或形式,欢迎在后台留言或联系小编,我们会认真考虑、积极采纳de~期待你的来访!
-END-

编辑:Young


关注我们,获取更多资讯!

往期回顾

行业动态1. 会议 | 第十三届中国社会语言学国际学术研讨会五号通知
2. 重磅!教育部:翻译可授予硕士、博士专业学位!
3. 会议 | CNTI全国翻译专业学位研究生教育指导委员会2022年工作会议暨全国翻译专业学位研究生教育2022年年会(二号通知)
4. 资讯 | 全国翻译硕士专业学位(MTI)培养单位名单(316所/最新版)5. 会议通知 | 第七届语言服务高级论坛通知(第1号)

行业观察1. 大数据时代译者如何提升数字素养—《翻译搜索指南》主编王华树博士专访2. 行业观察 | 黄友义:强化国家对外翻译机制,助力国际传播能力提升3. 行业观察 | 黄友义 王少爽:新文科背景下我国翻译学科与国际传播能力建设4. 行业观察 | 王立非:以基地建设为契机,努力增强语言服务出口竞争力
5. 行业观察 | 李佐文:语言智能和语言服务出口
精品课程1. 精品课程 | 语料库与术语库技术工作坊重磅来袭!2. 开学季大放送 | 翻译技术精品课程中秋限时团购!低至五折!
3. 限时惊喜福利 | “搜”嗖嗖,我带着“搜索指南”走来了!4. 精彩回顾 | 翻译与搜索技术工作坊圆满收官!5. 精彩回顾 | 语言资产管理与技术沙龙

实习就业1. 招聘快报 | MoGi Group招募游戏LQA项目经理,英文良好2. 招聘快报 | 本地化项目管理实习生
3. 招聘快报 | 外研社招聘2023届英语、韩语等专业毕业生
4. 招聘快报 | 坐标北京-全球化智库CCG英文国际传播实习生招募5. 招聘快报 | 悬疑IP《法医秦明之偷窥者》改编作品招募中英文翻译
技术干货1. 新书推荐 | 人人都用的上的《翻译搜索指南》2. 收藏|翻译专业学生翻译技术学习推荐书目(2022年9月更新)3. 云译科技 | 机器翻译,就选云译!
4. 技术与工具 | Ludwig: 地道英文写作辅助神器,告别中式英语5. 精彩回顾 | 王华树博士《翻译搜索指南》首期读书分享会圆满落幕
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存