基于汉语框架网的中文问句分类研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:colinqq1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机和网络的出现方便了人们对信息的获取,随着互联网的飞速发展和计算机的迅猛更新,如何从互联网上更快地获取到更准确的有用信息成了人们的关注热点。现有的搜索引擎返回给用户的都只是一些与搜索内容信息相关的网页,这就需要用户自己再从这些网页中进一步寻求所需信息。显然这给人们查询信息带来了许多不便,而且无形中降低了查询效率。而问答系统(Question Answering System, QA)只需用户给出简单的问句,便可以返回给用户简洁、准确的信息,快速而有效地满足了用户对信息的检索需求。因此,问答系统的研究逐渐受到国内外众多学者的广泛关注,并已经取得了一定的研究成果。问句分类即确定问句所属的类型,是问答系统中必不可少的一部分,分类的准确性直接影响问答系统的性能。本文基于汉语框架网(Chinese FrameNet, CFN)提出了一种用于中文问句分类的新方法,该方法通过构建一系列CFN语义特征来表达每个问句的语义信息。首先选择五种汉语框架网特征作为候选特征,根据每一类别的分类精度对单个特征的分类能力进行排序,然后通过特征组合进行实验,选出具有最好分类效果的组合特征。本文的主要工作包括:(1)通过调查问卷的形式收集并整理了山西旅游的相关问句2155条,并参照哈工大信息检索研究室的问句分类标准,结合山西旅游问句的特点,给出适合山西旅游的问句分类体系,分为7大类,73小类,进一步丰富了原有的中文问题分类体系。(2)对CFN标注的问句集进行分析和整理,选出五种CFN语义特征,使用最大熵分类模型进行实验。首先对单个特征的分类能力进行排序,然后分别对这些特征的组合进行实验;通过实验,得到了其中三种特征的组合可以达到最好的分类效果;进一步从理论上分析了这三种特征对问句分类的重要性。最后本文还给出了每类问题的准确率、召回率以及F值。(3)采用SVM分类器进行对比实验,实验结果表明,相比较于SVM分类器,最大熵分类模型比较适合于处理问句的分类。问句分类是问答系统对问句进行处理的重要步骤,对后续模块起着很好的指导作用,提高问句分类的准确率可提高整个问答系统的性能。本文针对问句分类方法的尝试与探索进一步丰富和发展了中文问题分类的研究,并为设计高效的问答系统提供了一定的基础。
其他文献
随着企业的不断发展,信息化程度的不断提高,业务流程的不断细化,出现了跨企业、跨行业的业务合作,但物流问题作为阻碍企业业务发展的一大瓶颈,一直是国内外众多学者研究的对象,并且
本课题针对两个少自由度并联机构进行了运动学性能和动力学性能方面的实例分析,这两个机构分别为:平面三自由度并联对称机构3RPC;具有四角平台的3-RPC机构。在具体研究每一个
随着城市的迅猛发展,城市公交问题已备受各国政府关注。以美国、日本为代表的各发达国家已经逐渐从主要依靠扩大路网规模来解决日益增长的交通需求,转移到广泛利用信息技术来建
随着计算机技术和因特网的迅猛发展,软件的盗版与破解却日益严重,因此如何有效解决软件产品的版权保护、防止盗版,已成为软件安全急需解决的问题。目前的软件版权保护技术主
多年来,数字视频相关技术取得了飞速的进步,有力地推动着广电、通信和互联网行业中交互点播、视频搜索等相关应用的发展。为了有效管理和利用海量的数字视频资源,需要对视频内容
当前,“软件人”研究工作正逐渐深入,基于“软件人”的各种应用也验证了“软件人”理论、技术、方法的可行性和有效性。“软件人”系统具有递阶、分层、松散耦合的分布式架构。
在澳门,情境式教学是目前中小学教育中的一种重要的教学模式,老师在讲课时利用各种媒体创设情境,引领学生从体验中更好地理解内容,提高学生的学习动机,在组织和创设情境的过程中,不
在目标识别、立体匹配、视觉跟踪、场景重建、自动检测等诸多视觉研究领域,自遮挡现象已成为影响各种任务执行效果的主要因素之一。如何准确、合理地对自遮挡现象进行检测是
计算机图形技术应用日臻广泛,图形处理也越来越复杂,采用专用的图形处理硬件来代替中央处理器进行图形处理已经成为实现高性能图形处理的主要途径。如何高效地对图形处理硬件单
随着互联网的广泛使用,网络上的信息呈几何级增长,如何有效地搜索信息资源是用户密切关注的问题。传统基于关键词的检索只能从字面上匹配,而没有充分利用信息资源之间的语义关系