基于特征提取和机器学习的现代汉语人称指示代词消解研究

被引量 : 0次 | 上传用户:chen2960798
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代是自然语言的常见语言现象,也是语篇衔接的重要手段之一。使用指示代词可以让语篇表述不累赘,简明清晰。指示代词的消解有助于机器分析和理解篇章,并在自动文摘、信息抽取、问答系统和机器翻译等多个自然语言处理领域有着广泛运用。随着篇章处理相关应用的日益发展,指代消解显示出前所未有的重要性,并成为自然语言处理中热门的研究问题。本文介绍了指代消解在自然语言处理领域的应用意义,对国内外指代消解的理论研究和实现技术进行了总结。本文针对宾州树库的特点,实现了一种基于特征提取及加权的指代消解的方法,同时也实现了一种基于机器学习的指代消解方法。特征提取是本文的主要内容,人称代词与候选先行词的特征提取是创建先行词候选集的重要条件,本文中通过提取人称代词与候选先行词的指人、性别和单复数特征来过滤候选先行词以创建先行词候选集。而人称代词与先行词候选集中的候选先行词组成的候选对的特征提取则是在候选集中选择先行词的唯一条件。本文中提取了各个候选对的8个特征,然后对这些特征进行加权得到一个匹配权值,先行词则是组成具有最高匹配权值的候选对的词。词语搭配作为一种特殊的语言现象,组成搭配的词语互相存在着暗示。在本文中搭配被用来提取词语的语义信息,同时统计信息也可以从搭配中获取。搭配对于特征提取有着重要的意义。支持向量机(SVM)作为一种机器学习算法,能够从有限的特征中最大限度的提取分类信息来进行分类。在本文中指代消解被转化为一种特殊的分类问题,即对于每个人称代词来说,它与候选先行词组成的候选对中只有1个候选对能被分为同指类,而其他的候选对要被分为非同指类。在本文中,基于SVM的指代消解使用SVMLight工具进行分类。分类时使用加权消解方法时提取的特征,然后从SVMLight分类的中间结果中提取消解结果。基于使用搭配改进的特征提取,在宾州树库的全部语料中普通加权的方法得到了86.37%,而在经过挑选的语料中基于SVM的方法得到了超过90%的正确率。而基于搭配的特征提取的使用对于整个系统的性能都有超过10%的提高。实验证明,本文中采取的方法对指代消解存在重要的价值。
其他文献
社会需要范畴是《资本论》中的一个重要范畴。它一方面指的是对劳动产品的消费需要,它植根于一定时期的生产力发展水平,具有客观性的特点。另一方面,社会需要是具有一定社会性质
目的探讨益气补肾化痰祛瘀法对缓解期慢阻肺并肺心病患者生存质量的影响。方法选取2012年5月~2015年5月于我院收治的缓解期慢阻肺并肺心病患者80例,将其随机分为中西医结合治
公共物品研究是公共经济学的经典主题之一。在公共物品理论中,如何确定公共物品的最优供给水平的问题受到了众多经济学家的关注。本文拟对公共物品最优供给的新古典理论加以
利用泰尔指数对中国近20年的人均GDP数据进行分析,发现中国省区间一直存在着不平衡的经济增长.从1985年至1990年之间,省区间的差异在缩小,而1990年以后,这个差异却在拉大.省
游戏是幼儿的基本活动。幼儿园教学游戏化以幼儿的主动学习和主体性发展为主要特征,体现生动活泼、积极主动、兴趣与能力并重的具有时代特色的教学活动范式。该文阐述了教学
我国地方政府性债务存在着一定的债务风险,已经成为制约地方经济事业发展的消极因素。文章就运用审计手段监督、加强地方政府债务风险防控,进行了一些分析。
本文认为 ,中国扩大内需的宏观调控政策效应不理想主要不是政策本身的原因 ,而是政策背后的市场基础与制度条件方面的问题。文章从宏观调控政策是一种典型的政府制度安排的观
土地革命时期,中国共产党领导的苏维埃政权建设的实践,是中国人民政权建设史上的重要组成部分,是中国共产党执掌政权、领导和管理国家的伟大尝试。从根本上说,中国苏维埃政权
我国改革开放20多年来,在经济建设上取得了举世瞩目的成就,这些成就的取得,是与邓小平经济非均衡发展战略的实施分不开的。随着我国改革开放和现代化建设的不断的深入,经济发展战