基于特征和语义的中文共指消解研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:bluecluse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共指现象在自然语言中十分常见,它使得句子、主题更为简明突出,但同时增加了计算机理解自然语言难度。共指消解足自然语言处理的重点和难点之一,在机器翻译、文本摘要、信息抽取等领域中有广泛应用。随着信息技术相关应用的发展,共指消解成为自然语言处理中的热门研究问题,并成为ACE等国际评测的重要任务。  本文介绍了现有的共指消解相关技术和方法,并对国内外的理论和实现技术进行了总结。分析并参考了Soon提出的基于机器学习的共指消解框架,在此基础上实现了一个共指消解系统。针对ACE2007中文语料,提出了基于特征分选策略的共指消解方法,同时也研究了语义信息在共指消解中的应用。  本文使用SVM作为机器学习算法,特征的选择和提取也因此成为最重要的内容。本文首先将人称代词和其余名词短语采用分选策略选择特征进行实验和分析对比,在使用ACE2007中文新闻广播语料实验中,采用分选策略得到的F值提高了1.04%:并将语义信息引入基准系统,研究它们对共指消解的作用,实验结果显示语义信息如语义类别和语义相似度的加入对共指消解的性能有不同的影响,两者结合引入了更多有效特征,更有利于共指消解性能的提高,F值达到82.97%,比基准系统提高超过3个百分点。  共指消解的有效进行还需要很多信息,本文埘中文共指消解相关内容做了初步研究工作,为今后的深入研究铺垫了一定的基础。
其他文献
随着科技的发展,因特网应用的不断普及,网络规模的日益扩大,网络结构变得越来越复杂。如何保证网络设备安全、可靠、高效地运行,成为一个急待解决的问题。优秀的网络管理软件
覆盖率对于软件测试有着非常重要的作用,它是用来度量测试完整性的一个手段。通过覆盖率数据,可以知道测试工作是否充分,测试的弱点在哪些方面,进而指导我们设计能够增加覆盖率的
随着多媒体信息技术的膨胀,传统的检索方法已经不能满足发展的需求。自1992年基于内容的图像检索的概念提出之后,已经得到了国内外信息领域科技人员的广泛重视和研究,成为多媒体
随着互联网应用的高速发展,网络安全受到越来越多的重视。国内大部分网上银行系统都采用验证码作为保障网络安全的一种手段。验证码是一种人机区分技术,其本质是创建一个用户容
第四代VoIP乎叫中心在很大程度上是为因特网服务的,其功能更加强大,应用范围更加广泛,同时对座席平台的分布式部署和快速开发能力提出了新的要求。本文总结了本人研究生阶段
使用真实设备教学的过程中经常有一些危险的、破坏性的实验,并且设备价值昂贵、容易损坏,使得这种教学方式无法普及。随着虚拟现实仿真技术的发展,使用交互式三维仿真课件教学的
近年来,随着通信网络的扩容和多媒体技术的迅速发展,基于无线网络的多媒体应用尤其是视频应用得到飞速发展,视频业务的普及提高了用户对视频业务质量的要求,用户希望能够随时随地
众所周知,我国油气勘探领域的数据处理具有数据量大、计算时间长的特点,并行处理技术日益引起石油地球物理界的广泛关注,如何高效并行处理大规模地震数据已成为亟待解决的重大课
近年来,随着智能手机与网络通信的发展,视频逐步成为信息的主要载体。相比与静态图片,视频携带的信息更为丰富,表达能力更强。面对海量的视频数据,如何利用有效的手段对其进行分析
无线Mesh网络(WMN,Wireless Mesh Network)是一种新型的无线通信网络,具有自组织性、自愈性、频谱效率高、覆盖范围大、可扩展性强、可靠性强等众多无可比拟的优势。无线Mesh网