基于多特征的中文文本蕴涵识别方法

被引量 : 0次 | 上传用户:digital78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本蕴涵关系研究的主要目的是在建立通用文本推理框架的同时,解决自然语言语义表达的多样性问题。任意一种自然语言处理应用只需将需要推理的问题转化为判断两个文本片段是否具有蕴涵关系,就可以利用文本蕴涵识别的方法实现文本的推理。作为众多自然语言处理的基础,文本蕴涵识别研究受到了广泛关注。文本蕴涵识别本质上是分类问题,本文采用支持向量机设计实现中文文本蕴涵分类器,分类器输出为2-way标签或者5-way标签,其中输出2-way标签的二分类器用于识别蕴涵关系和非蕴涵关系,输出5-way标签的五分类器用于识别正向蕴涵关系、逆向蕴涵关系、双向蕴涵关系、矛盾关系和独立关系。为了提高识别方法的精确度,本文采用了多种特征,包括统计特征、词汇语义特征、句法特征以及事件语义特征。基于事件语义特征的中文文本蕴涵识别方法分析事件标注文本对并生成事件图,将文本对间蕴涵关系转换为事件图间的蕴涵关系,采用基于最大公共子图的图相似度作为事件语义特征,结合统计特征、词汇语义特征、句法特征并使用基于支持向量机的中文文本蕴涵识别方法得到初步实验结果,利用事件语义规则构成的修正模块处理初步实验结果得到最终实验结果。在实验结果评估中,采用了通用的准确率(Precision)、召回率(Recall)和F-measure三种标准,实验结果表明,基于多特征的中文文本蕴涵识别方法具有较好的识别性能,统计特征、词汇语义特征、句法特征以及事件语义特征适用于中文文本蕴涵识别。
其他文献
本文对68例多发性硬化(MS)活动期的病人进行脑脊液检查,结果发现患者脑脊液白细胞增高占29.4%,尤以首次发病者明显。其脑脊液细胞学(CSFC)的改变主要以转化型淋巴细胞反应为主。此外,M
<正>玩家想掌握游戏中所有的风吹草动,分辨各种声音的来源,没有一款性能强劲的电竞耳机怎么行?好的电竞耳机,不仅外观时尚、佩戴舒适、拥有卓越的音效,还能提升玩家的战斗力
期刊
为了更好、更充分地发挥监考教师在监考中的作用,同时也为了提高考务管理的工作效率和质量,系统提出通过构建监考教师监考能力特征值的方法,将教师诸如性别、年龄、岗位等因
<正>伴随多媒体技术在课堂教学中的应用,大大提高了教学质量与学生的学习兴趣。多媒体技术可有效提高教学信息的传递速度,加之丰富多彩的图片,让学生耳目一新。但是,多媒体技
通过对耕地质量与监控研究进展的系统总结和梳理,提出耕地质量与监控未来重点研究方向,为我国耕地质量提升与管理提供支撑。研究采用文献综合法和总结归纳法。结果表明:耕地
<正>侯登科是中国当代纪实摄影的坐标式人物。他是一位在影像中对于人性的积极而深刻的恒久探索者。他独特的阅历与人格魅力、独特的追求与精神格局,在中国摄影界成为一个罕
随着经济的发展,我国中小企业的发展模式为了适应社会主义市场经济而不断改变。互联网时代的到来,使企业不断优化产业结构,从现实中的设立商铺到在网络上进行商务贸易。随着
<正>大学毕业后,李玲进入成都一家会计师事务所任职。国庆长假期间,李玲与同事一起到日本旅游。她发现,无论在地铁、大街,还是商场、旅游景点,有人打喷嚏或者轻微咳嗽时,都会
期刊
<正>世界银行集团(Word Bank Group)项目贷款管理在遵循项目管理理论的基础上,通过长期的实践积累,形成了一整套卓有成效的管理制度和方法(包含先进的理念、机制、模式和严密