基于词典和词频分析的论坛语料未登录词识别研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yshanhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词技术是中文信息处理的一个基础性课题,在中文信息处理中,首先需要对词进行切分,然后才能进行更深层次应用研究,随着信息科技的高速发展,Internet的中文信息量的飞速增长对中文分词准确性的要求越来越高,未登录词识别问题一直是制约中文分词效率的瓶颈,为了有效解决中文分词中未登录词识别效率低的问题,本文提出了一种基于词典和词频分析相结合的网络论坛语料未登录词识别策略,将从以下几个方面展开。(1)选取天涯论坛数据构建动态语料库,利用网络蜘蛛WebLech爬取技术,下载天涯论坛数据至本地硬盘,利用基于Java解析器Jsoup对下载到本地html等网页文件进行解析,得到干净的Txt文本文件构建语料库。将双字耦合度函数和T-测试函数线性叠加构造新的统计量CT来识别语料库中的候选未登录词。CT算法是未登录词识别原型系统中学习训练模块的重要组成部分,作为判断候选未登录词的依据,将其加入到临时词典中,在临时词典中统计候选未登录词的词频,将词频大于阂值的候选未登录词认定为未登录词加入到核心词典,其余作为高频非词字串加入停用词典。(2)设计了分词词典结构,将分词词典设计成核心词典和扩展词典两级结构;核心词典作为分词的依据,采用首字hash存储支持快速查找,词典以词组为单位按词长由长到短顺序存储,这样可以大大减少匹配次数,提高查找效率。扩展词典分为临时词典和停用词典,临时词典与统计策略相结合,作为候选未登录词的学习训练依据,停用词典用来存储高频非词字串,这样可以减少临时词典的负担。优化了分词匹配算法,设计了改进的正向匹配算法AMM。实现了根据词组长度动态设置最大匹配词长。实验证明,提高了匹配效率,同时一定程度上解决了多次无效匹配和长词被切分的问题。(3)设计实现了未登录词原型系统。在整合前面研究的基础上设计实现了原型系统,原型系统包括:语料采集模块、文档解析模块,这两个模块用于构建语料库;系统学习训练模块,此模块用于向核心词典输送新词;分词模块,此模块用于实现中文自动分词。同时对系统初始化后和学习训练后分词比较,证明系统的可行性,在新词召回率、准确率等方面都有了一定提高。
其他文献
内存数据库由于全部或者大部分数据常驻内存,故其事务处理过程中的I/O很少。因此,与磁盘数据库以减少I/O为主要优化目标不同,内存数据库不再以此为主要优化目标。这也意味着磁盘
学位
随着网络信息化的快速发展与普及,可靠的网络协议成为保障网络稳定的重要因素。为了保证网络协议实现符合它的规格说明,对协议进行一致性测试是非常有必要的。然而网络的发展
信息网络的飞速发展及电子文档的广泛使用给我们的生活带来了巨大的影响,一些影响有利于我们生活的方向发展,而一些影响却给我们的生活以及技术本身的发展带来了负面作用。相
近年来,随着我国通信业的高速发展,宽带接入的用户量越来越大,通信企业的内部业务结构也越来越复杂。宽带市场的持续增长,IPTV等业务对带宽和宽带质量提出更高的要求,因此,宽
随着近年的不断深入研究,人脸识别已经成为计算机视觉,人机交互和模式别等多领域的热门研究课题。人脸识别因其具有非侵犯性和强大的事后追踪可查性等优势成为当今最主要的生
近年来,随着当今社会对国际反恐、安防、人机交互等问题的关注度不断提高,具有非侵犯性、简便性、非接触性等优点的人脸识别技术受到广泛关注。人脸识别算法的关键技术是提取稳
随着计算机网络技术的发展,多媒体信息被人们广泛使用,这给人们的生活带来了极大的便利,但也使人们不得不面对网络作品版权保护的问题,与实体作品相比在网络中的数字作品更容
指纹分类工作中最朴素的分类方法是通过指纹脊谷线流向以及奇异点数量/位置信息对指纹类别进行判断。但受到指纹图像质量的影响这些信息难以准确地获得。故能否准确地提取方
Internet软件的开发和运行无可避免地依赖于所依存的网络环境,要实现Internet软件的自适应性和软件系统的动态演化,需要充分考虑与系统交互的外部网络环境,及时感知网络环境