论文部分内容阅读
近几十年以来,经过国内外广大专家学者研究人员的努力,现在已经形成了一些常用的中文分词算法,最常见的包括了基于词典的机械中文分词算法、基于统计的中文分词算法和基于理解的中文分词算法。这些算法都有其各自的优势与局限性,基于词库的机械分词算法实现简单运行效率高,但对新词的识别效果差;基于理解的中文分词算法难以达到应用的程度,主要还是以理论研究为主;基于统计的中文分词算法对新词的处理效果好,但是算法时空开销大,对常用词识别效果差。目前已有的系统主要都是基于这三种常用算法来实现的,但是由于汉语语言的复杂性以及随着时代变化不断涌现出的各种新词汇,这些系统尚不能完全满足实际应用系统的需求。在算法研究的理论基础上,实现了基于词库与贝叶斯定理的分词算法。构建了一个包括了常用词库与其他特征词库的分词词库,而且能够根据语料库的文本来对词库进行更新,从而提高了分词词库的质量。通过采用Hash表与链表结合的方式来存储词库,来满足算法对词库数据的快速查找的需求。将传统的贝叶斯定理灵活地应用于中文分词上,得到计算分词方案概率的公式,并根据分词词库里中文词汇的概率数据来计算分词方案的概率。歧义问题的处理是中文分词的一个比较大的技术难点,对于这个问题的处理,算法采用的是二元模型,能有效解决这个问题。经过这些处理,使得算法能够充分汲取各种常见算法的优势,避免各自的局限性,对常用词汇以及新词的处理效果都比较好。在各种测试条件下的测试结果表明,该算法具有良好的分词效果,对歧义处理、未登录词的处理方面效果较好,基本可以满足处理中文相关信息的需要。