论文部分内容阅读
该文主要研究词义知识的利用,词义模型训练和词的发类问题。首先给了使用统计模型标准中文文本词义的实验。其中,所用的词义标注集包含了1428类。在2000万词的语料训练得到一个二阶的词义模型后,运用该模型对50万词的集外语料进行测试,复杂度为65.48,词义准确率为92.73℅。然后,将该词义模型用于汉语的音室转换系统中,音字的转换的准确率为97.82℅。这个结果要明显好于传统的二元文法模型(93.2℅)和词性+二元文方法模型(95.1℅)。我们的实验表明该词义模型能减少词的岐义性,并能且够表地自然语言中词和词之间的短距离和长距离的词义依赖关系。