语料库可以用来做什么?

语料库(Corpus)是什么?百度百科给出的解释是:

语料库指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料。

说白了,可以理解为一个人为收集的极其庞大的生活中能够见到的各种文字段落。这些文字的来源可以说是相当广泛,比如杂志、网站、新闻、学术论文、书籍等等。就算是其中的一个小类别,比如书籍,也包括漫画书、工具书、教科书、古典名著、历史书等等。

那这玩意能干啥呢?学自然语言处理、人工智能、统计学之类的朋友一定不会陌生。这些东西是相当好的训练数据,可以用来训练各种功能的网络,比如翻译(比如中英、中日、古汉语等)、情感分类(判断说话者的态度是积极还是消极)、问答(根据提出的问题进行相应的作答)等等。但是语料库对于不搞学术研究的普通人有没有什么用处呢?答案是有的。下面我想简单介绍两个网站。

BCC 语料库

BCC 语料库是北京语言大学语言智能研究院推出的一个线上语料库。BCC 是北京语言大学语料库中心(BLCU Corpus Center)的缩写。

打开网址,会看到一个像是传统搜索引擎一样的东西。然后我们搜索一点东西试试看(默认是“多领域”,会搜到相当多的微博内容,所以我们先切换到“文学”):

这大概就是语料库最简单直接的功能了:搜索相关句子的出处。比如我们看过一句名言,但是想不起来出自哪里,那就可以用语料库进行搜索。比如隐约记得有句把说话夹杂外语比作牙缝里的肉屑,就可以这样搜索:

然后就找到了出处。但是这显然是有点大材小用了。这种事情随便一个中文搜索引擎就可以做到吧,甚至做得比语料库更好。这时候语料库的另一个关键功能,也就是这篇文章想要重点介绍的功能就来了:“以人为镜”。

就算是从小说中文,实际到了写作的时候,也经常会不知道该怎么去表达,或者该用什么字词。举个简单例子,比如“高兴 de 不得了”,不知道这里该用“的”还是“得”,那我们就可以搜搜看了,看看别人是怎么用的。当然,我们依旧选择文学,因为文学的中文语法是相对更能信得过的。

怎么样,是不是立刻就找到答案了?

又或者,不知道该怎么去描写莲花,那么可以搜索:

或许就能够得到一些写作的灵感了。

以上用到的搜索技巧全都可以在 BCC 语料库的官方帮助文档中找到。

时间有限,中文的语料库就先介绍到这里。下面我再介绍一个英文的。

Linggle

英文的叫做 Linggle,虽然也是利用了语料库,但是可能就不像上面那个中文的看起来酷炫了,能给你展示出搜索到的句子。英文的这个只能给你一个统计学的频率。但即便如此,这个工具依旧好用。倒不如说,它的用处正是因此而最大化地体现出来的。

在学习英文以及英文写作的时候,经常遇到不知道该怎么表达的问题。比如动词后面的介词不知道该用什么,或者不知道某种表达方式是否地道。这种时候大家一般会怎么办呢?

了解了这个英文语料库之后,就可以用新的方法了!

比如想要表达“达到要求”,但是只知道“要求”是“requirement”,却不清楚前面该用什么动词。这时候可以搜索:

就能立刻找到答案了。点击某个具体的短语,还可以查看例句。虽然不像是 BCC 那样可以给出所有搜索到的例句,但是给出的一些仍然是很有参考意义的。

再比如,想要表达“我喜欢弹钢琴”,但是不知道该怎么表达。这时候可以搜索:

或者想知道 finish 后面加一个冠词和一个名词,都有哪些常见的用法,可以搜索:


类似的例子实在是太多了。这里先写这么多。之后如果有什么新的,我会在这里补充。

大家快去体验一下上面提到的两款工具吧!