论文部分内容阅读
本文谈两个问题:一是语料库之大容量与语料库语言学面临的挑战,二是索引行分析(Keyword in Context,KWIC)自动化研究探索.先谈第一个问题.回顾语料库语言学几十年的发展历程,人们对语料库有两种不同的理解.第一种是把语料库理解为抽样文本集合,即所谓的样本语料库(sample corpora),又称为平衡语料库(balanced corpora)(McEnery & Hardie,2012:6).持这种观点的学者认为,语料库就如同其他实证研究中的数据一样,需要采用严格科学的抽样方法采集,研究中数据的样本量和代表性同等重要.依据这种方式建成的语料库包括美国学者最早建成的布朗语料库(Brown Corpus),以及后来英国兰卡斯特大学语料库研究团队主持或参与建成的布朗家族语料库(Brown Family Corpora)和英国国家语料库(British National Corpus)等.