论文部分内容阅读
汉语分词是中文信息处理中最基础的部分。信息检索用汉语分词要求分词算法具备一定的歧义识别与未登录词识别功能。本文深入研究了未登录词识别技术,根据人在阅读时识别新词的思维过程,提出了一种新的未登录词识别算法,其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左方探测法、右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对正向、逆向双向分词算法的结果进行比较,能识别出绝大部分的交集歧义,使得未登录词识别与切分歧义识别一体化,有效地解决了识别未登录词时导致的新的切分歧义问题。接着,本文改进了词表组织结构,改善了词表查询算法,在提高分词效率的同时也使得词表的囊括度更大、更新维护更加灵活。在此基础上,针对信息检索领域的特点以及对分词算法的要求,本文提出了汉语自适应分词算法,并设计开发出了汉语分词基础模块carmmLib.d11以及汉语自适应分词系统Carmm。carmm用户可以定制词表,定制分词结果以及可以对词表、未登录词表等词表进行管理维护等。Carmm还具备很好的扩展性和可移植性。最后,本文对Carmm与中科院的分词系统ICTCLAS开源版进行了全面测评,包括系统效能测评(系统基本性能测评、负荷测评、稳定性测评)、系统分词准确率测评、系统未登录词识别的准确率和召回率测评。在整个测评过程中,Carmm的分词速率可以稳定在100KB/s左右。在人民日报语料库的开放测评中,Carmm系统的分词准确率约为91.2%。在网络时文的开放测评中,Carmm系统的分词准确率约为90.1%,接近于ICTCLAS开源版的91.3%;未登录词识别的准确率约为91.2%,略低于ICTCLAS开源版的93.9%;而未登录词识别的召回率约为94.7%,明显高于ICTCLAS开源版的89.0%。与此同时,Carmm系统在分词速率、处理大量未登录词的速率稳定性、面对高负荷系统环境的健壮性、系统易用性、系统抗干扰性等方面都优于ICTCLAS系统开源版。