查看原文
其他

技术科普 | BCC汉语语料库:紧跟时代潮流的语料检索平台

The following article is from 翻译学习共同体 Author TransLearn


1. 工具简介
北京语言大学语料库中心(BLCU Corpus Center,简称BCC)是以汉语为主、兼有英语和法语的在线语料库,是服务语言本体研究和语言应用研究的在线大数据系统。BCC语料库总字数约 150 亿字,包括报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。BCC语料库具有数据量大、领域广和检索便捷等优点。目前,已经支持了百余篇论文的发表。

BCC汉语语料库网址:http://bcc.blcu.edu.cn/


2. 图文教程
2.1 基本检索流程
1)在搜索框里输入要检索的词汇或语句,可以选择“多领域”“文学”“报刊”“对话”“篇章检索”“古汉语”“历时检索”或“自定义”。如输入“美丽的”。点击“搜索”键,可以在单句范围内,检符合检索式的语言片段。
2)点击“全文”,可以看见该词的出处。
3)点击“统计”,可以查询统计符合检索式的语言片段出现的频次。
4)点击“筛选”,对检索结果进一步剔除或者仅仅保留符合筛选检索式的实例。
5)点击“下载”,可以下载10000条,但不能做商业使用。
6)点击“高级”,设置检索结果的显示形式,控制上下文字数。
2.2 历时检索
1)点击“历时检索”,输入“美丽的”,检索结果可以看到检索式历年的出现频次和频率,可以切换为柱状图、折线图两种显示方式。
2)点击“切换为频率图”,即可查看。
3)右上角依次为“数据视图”“切换为折线图”“切换为柱状图”“保存为图片”。
① 数据视图
② 折线视图
③ 保存的图片为png格式。
2.3 BCC检索式
1)下图为一些常见的检索式示例。
2)点击“文学”或“报刊”,输入基本检索式“爱v不v”。
3)此外,由于仅仅使用文字加英文的形式检索出来的内容并不具有广泛性。因此,对于一个结构内部的精细分析,使用BCC的基本操作方式(链接)确实难以完成,无法一步到位。BCC在“报刊”“文学”两个频道数据升级了高级检索功能。
4)高级检索式在基本检索式的基础上增加了条件语句或输出语句。语句之间用“;”隔开,写在基本检索式后的“{ }”中,形如:Query{condition1;condition2;...}
Query表示基本检索式;{ }中的内容为限制语句,其中condition表示对检索内容进行条件限定。
检索式中被限定的部分需要用( )括起来,一个检索式中被限定的成分只能有两处,即只能出现2个( )。根据( )出现的顺序,使用$符号和序号指代该部分内容,在{ }中进行指称。
即$1表示第一个( )中出现的内容,而$2表示第二个中的内容。
然而花括号里如何构造条件呢?通过内容限制([])长度限制(len)、次数限制(count)等操作符,BCC实现了更灵活的检索。控制方式详见下表。
比如,我们输入检索式示例:(v)了又(v){$1=$2;len($1)=1}
表示“动词+了又+动词”的结构。按“( )”出现的顺序,两个动词可分别由“$1”“$2”取得。“{ }”中的限定条件表示前后两个动词相同,第一个动词长度为1。
2.4 其他功能
1)在首页下方,还可以看见“新闻”“搜索示例”“下载”选项。
2)其中,“下载”选项里涵盖了树库资源,法语资源,HSK资源,汉字资源,词汇资源,外语资源及其他工具。方便使用者进行下载。
搜索示例提供了相应句型的检索符号,方便检索者进行查阅。

3. 学习心得
BCC汉语语料库以汉语为主,兼有其他语种的语言大数据;为语言本体研究提供在线检索系统;为语言本体研究提供建构大数据的语言应用平台;支持云服务;通过API调用方式为开展知识抽取、模型构建提供便利。不仅为汉语言爱好者提供便捷专业的检索途径,也对从事中译外的译者及对外汉语教师提供了多角度,具有时效性的检索结果。同时,该检索工具帮助使用者们掌握更为细化的检索方式,提高了使用学习者们的搜索技能。综上,BCC汉语语料库值得大家研究学习。

参考资料

[1]BCC汉语语料库官网-帮助栏
[2]肖丹、马路遥BCC语料库 | 世界语言资源平台 (languageresources.github.io)

4. 配套视频
作者:杨惠钧

编校:阿之

注:学习作品,仅供参考,欢迎指正。



/课程推荐/


-END-

转载编辑:Young

关注我们,获取更多资讯!

往期回顾

行业动态1. 重磅!教育部:翻译可授予硕士、博士专业学位!
2. 资讯 | 全国翻译硕士专业学位(MTI)培养单位名单(316所/最新版)3. 通知 | 第十四届全国口译大会暨学术研讨会三号通知
4. 资讯 | 语言服务业首次列入国家《鼓励外商投资产业目录》!
5. 语言服务这十年(四):语言服务企业产值不断提高

行业观察1. 大数据时代译者如何提升数字素养—《翻译搜索指南》主编王华树博士专访2. 行业观察 | 黄友义:强化国家对外翻译机制,助力国际传播能力提升3. 目录 | 《外国语言文学》2022年 第5期
4. 《2022年机器翻译评测报告》解读(下)
5. 管新潮:Python与语料库如何深度结合

精品课程1. 本地化技术工作坊——开启译者转型升级之路2. 精品课程 | 语料库与术语库技术工作坊重磅来袭!3. 精彩回顾 | 语言资产管理与技术沙龙4. 精彩回顾 | 影视本地化技术沙龙精彩盘点5. 精彩回顾 | 语料标注与检索技术沙龙干货盘点~

实习就业1. 快毕业了何去何从?语言服务岗位科普+大厂offer“职”等你来!2. 招聘快报 | 中国外文局CATTI中心招聘英语、翻译专业
3. 招聘快报 | 传神语联招英语翻译(体育类笔译)
4. 招聘快报 | 安徽农业大学外国语学院招聘公告
5. 招聘快报 | 米哈游招聘英语翻译

技术干货1. 新书推荐 | 人人都用的上的《翻译搜索指南》2. 收藏|翻译专业学生翻译技术学习推荐书目(2022年9月更新)3. 云译科技 | 机器翻译,就选云译!
4. 云译科技 | TransWAI:影视翻译项目管理神器
5. 技术科普 | 大英百科全书网站:英语学习的百宝库
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存