信息检索用汉语分词与未登录词识别技术研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:opou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语分词是中文信息处理中最基础的部分。信息检索用汉语分词要求分词算法具备一定的歧义识别与未登录词识别功能。本文深入研究了未登录词识别技术,根据人在阅读时识别新词的思维过程,提出了一种新的未登录词识别算法,其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左方探测法、右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对正向、逆向双向分词算法的结果进行比较,能识别出绝大部分的交集歧义,使得未登录词识别与切分歧义识别一体化,有效地解决了识别未登录词时导致的新的切分歧义问题。接着,本文改进了词表组织结构,改善了词表查询算法,在提高分词效率的同时也使得词表的囊括度更大、更新维护更加灵活。在此基础上,针对信息检索领域的特点以及对分词算法的要求,本文提出了汉语自适应分词算法,并设计开发出了汉语分词基础模块carmmLib.d11以及汉语自适应分词系统Carmm。carmm用户可以定制词表,定制分词结果以及可以对词表、未登录词表等词表进行管理维护等。Carmm还具备很好的扩展性和可移植性。最后,本文对Carmm与中科院的分词系统ICTCLAS开源版进行了全面测评,包括系统效能测评(系统基本性能测评、负荷测评、稳定性测评)、系统分词准确率测评、系统未登录词识别的准确率和召回率测评。在整个测评过程中,Carmm的分词速率可以稳定在100KB/s左右。在人民日报语料库的开放测评中,Carmm系统的分词准确率约为91.2%。在网络时文的开放测评中,Carmm系统的分词准确率约为90.1%,接近于ICTCLAS开源版的91.3%;未登录词识别的准确率约为91.2%,略低于ICTCLAS开源版的93.9%;而未登录词识别的召回率约为94.7%,明显高于ICTCLAS开源版的89.0%。与此同时,Carmm系统在分词速率、处理大量未登录词的速率稳定性、面对高负荷系统环境的健壮性、系统易用性、系统抗干扰性等方面都优于ICTCLAS系统开源版。
其他文献
《体育与健康》课程是中学课程体系的重要组成部分,是一门以身体练习为主要手段、以增进中小学生健康为主要目的的必修课程,篮球教学一直是中学体育教学大纲所规定的选修内容
数字参考咨询(DRS)是网络环境下图书馆深化服务和服务创新的需要,是传统参考咨询在网络环境下的继承、延伸和发展,它利用网络提供的技术优势,为用户提供方便、及时、高效的咨
为弥补目前国内已有的研究方法对商业银行竞争力进行定量综合评价的不足,本文基于因子分析法,将因子分析与突变级数原理结合起来,对我国8家商业银行的竞争力状况作了综合评价
企业的薪酬和福利制度好坏将直接影响整个企业的效益,因此对于一个优秀的企业而言,制定合理的薪酬和福利制度是必要也是必须的。本文介绍了国有企业人力资源激励机制中的薪酬
大阪位于日本关西地区,是大部分关系旅行路线的重要一站及出入境城市其繁华程度仅次于东京,,这里不仅仅是出入关西旅行时的一站式购物中心作为会降目的地大阪还拥有非常多亮
高中地理引桥教学以认知同化理论为基础,学生学到的不再是零散的知识而是系统化的知识结构,设计引桥内容,实现知识迁移,让学生感到高中地理有意思能学明白,进而激发学生学习
目的研究心电图危急值的临床应用情况,探讨心电图危急值报告制度的临床意义。方法回顾性分析2015年1月至2018年6月在昆明医科大学第二附属医院心功能科接受常规或动态心电图
近年来,当事人在民事诉讼实践中的诉讼失信行为层出不穷,已经成为阻碍纠纷解决、保障私权以及维护实体正义的一大掣肘。诚实信用原则在现行民事诉讼法中的确立也因过于原则化而难以发挥遏制诉讼失信行为的实效。作为诚实信用原则在民事诉讼中的主要表现形态,民事诉讼当事人真实义务已经初步确立了包含基本原则、真实性要求及不利后果的规则框架。但是,当事人真实义务在我国现行民事诉讼立法中存在着诸多缺憾,如尚未合理构建当事
目的探讨B超联合X线C臂机下调整异常静脉输液港的临床价值及社会价值。方法收集行完全植入式静脉输液港植入术后导管位置异常以及使用过程中出现异常的患者共12例,对其用B超
数字与网络技术的出现和发展在带来数字图书馆蓬勃发展的同时,也日益引发大量的版权保护问题。与传统图书馆相比,数字图书馆在信息源、服务对象和服务方式等方面都发生了重大