论文部分内容阅读
汉语文本的歧义切分问题是汉语自动分词的难点之一。该文采用语料库方法,从大量真实文本中,抽取歧义型词语字段,分别建造了交集型歧义字段库和多义型歧义字段库。分析了各类歧义型词语字段的特点和语言现象后,在统计数据的基础上,建立了歧义切分规则,我们对4646个歧义字段进行了测试,切分正确率可达87℅。