汉语自动分词技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xpzcz1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着我国国民经济的不断发展以及Internet的普及,中文信息处理得到越来越广泛的应用。由于历史的原因,当前在计算机产业中,中文信息处理技术是我国的专长,在国际上享有得天独厚的优势。 中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。在中文信息处理中,字只是处理的载体,而词才能表示信息,同时,中文文本是按句连写的,词间无间隙,所以在中文文本处理中,首先遇到的问题就是词的切分。 汉语自动分词中,有几个主要问题:词典收词,针对不同的应用选择适当的词加入词库;歧义消除,消除自动分词中有可能产生的切分歧义;未登录词识别,识别词库中未收录词。 本文分析了以上几个问题,研究了当前解决这些问题的策略,在总结其优缺点的基础上提出了一种规则与统计相结合的分词方法,提高了切分正确率,特别在解决交集型歧义方面效果显著。 本论文的主要工作有:1.分析和总结了已有的分词算法,包括基本分词方法、基于规则的分词方法和基于统计的分词方法;阐述了汉语分词原则和分词词典的收词原则与方法;分析了汉语自动分词中歧义产生的原因,讨论了解决交集型歧义和组合型歧义的代表性方法及其各自的特点;对汉语自动分词中可能碰到的未登录词(人名、地名、机构名以及译名),逐个阐述了其识别方法。 2.基于现有分词技术的分析,我们提出了一个规则与统计相结合的面向机器翻译的汉语自动分词策略。 该策略使用的词典为一个面向机器翻译的11万多词的词典,统计使用的语料库包括两个:人民日报1996年和1997年的真实语料、北京大学计算语言学研究所标注了的人民日报1998年上半年的语料。真实语料库用以统计词典中词频,标注语料库用以抽取词类的邻接概值以及人名用字、地名用字和译名用字的出现频率。 该策略通过正向最大匹配和逆向最大匹配相结合的双向匹配方法来发现交集型歧义;利用规则与词频统计相结合的方法来解决交集型歧义:先通过统计的方法来尽可能的解决歧义,然后利用规则来解决统计方法无法处理的歧义;然后针对切分结果中的未登录字串依次进行了人名、地名、译名和机构名称的识别。基于这个策略的实验分词系统能够很好的解决交集型歧义字段的切分,取得了良好的实验效果。 3.在基于所提分词算法的基础之上,又对策略做了一些深入研究,即在解决好交集型歧义的基础上,提出了发现、解决组合型歧义的设想,并对分词结果如何更好的跟应用相结合,特别对如何使本分词策略跟机器翻译的其它模块相结合作了一些探讨,从而使得策略更趋完善。
其他文献
远程计算机控制是指通过网络连接,远程接入PC机和网络服务器的一种综合解决方案,实现对目标机的远程控制和协同工作.远程计算机控制系统具备基本的远程通讯功能外,还必须具有
在这篇论文中,我们将探讨在未来的移动Internet上为移动IP用户提供"两层面"服务管理相关的六个重要问题.首先,基于下一代Internet、移动IP等技术提出了"两层面"服务管理体系
在国家973项目的资助下,结合上面的问题和项目本身的需要,该文深入研究了利用缓冲技术提高Web业务性能的方法、机制、关键算法等,在以下方面做出创新性成果:研究选用了大量的
在该课题的研究中,采用了向量空间模型来表示文本信息.我们针对网页结构的特点,详细分析了网页标识中对分类过程有贡献的结构成分,对于传统的特征项提取、特征表示方法和特征
时间序列挖掘包括规则发现、周期模式挖掘、序列模式挖掘和相似性查询,其中,时间序列的相似性查询是时间序列挖掘的一个重要方面.该文研究了基于序列变化模式的相似性查询方
该文在总结现有信息可视化技术及可视数据挖掘原理及方法的基础上,深入探讨了若干信息可视化方法在可视数据挖掘中的应用.(1)该文对平行坐标这一多维数据可视化方法的原理作
该文针对服装CAD系统中服装衣片的自动排料问题,在原有算法的基础上提出了一种改进的基于启发式搜索策略的自动排料算法,充分考虑人工排料时的经验信息,提出了基于分组的定序
流媒体技术作为当前多媒体技术的最新发展,实现了通过网络对多媒体数据进行连续实时的播放。流媒体服务器作为存储和传输流媒体数据的主要设备,对它的设计和研制正受到越来越多
大规模分布式协同系统是基于Intermet的一种重要应用。安全问题是制约这类应用发展的重要因素,而访问控制是协同系统安全控制中的核心问题之一。因此,如何针对大规模分布式协同
随着Internet的迅猛发展,基于Web应用的自助服务系统在人们的日常生活中发挥着越来越重要的作用。论文分析了自助服务系统对Web站点在高可用性、高可伸缩性和负载平衡能力方面