面向高考问答的地理试题文本分析和标注研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zsj1502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术正在飞速改变这个世界。在自然语言领域,围绕着自动问答系统(Question Answering,QA)开展了越来越多的研究。高效、智能的问答系统,致力于为用户提供更直接更优质的答案,可以从大量的知识储备中自动进行检索、推理,从而将用户从这些处理中解放出来。2011年,IBM的Watson问答机器人参加问答类综艺节目"Jeopardy!",并战胜了人类顶尖选手赢得冠军,自动问答系统再一次吸引了世人的眼光。从某种程度上来说,高考作为中国大多数中学生最重要的考试,可以看做是一种高水平的问答过程。本文的项目背景是面向中国高考地理试题的问答系统,并侧重于对选择题的解答。在解决高考自动问答的过程中,我们面临很多与传统问答系统不同的挑战:首先高考题的问答形式与传统自动问答系统存在明显区别;其次,高考题的灵活性远高于传统问答系统中的问题,这意味着我们很难从现成的文本中直接匹配、抽取得到答案。作为自动问答的第一步,问题理解的作用十分重要,这也是本文的工作重点。本文中将选择题题面和一个选项拼接成的完整句子作为分析的对象。对文本的理解可以分为两种:一是对句子间的篇章关系分析,二是对句子内部的语义关系理解。因此我们从两个方面来研究对于地理试题的理解问题:一方面是问题中子句间关系分类,另一方面是尝试使用AMR(Abstract Meaning Representation)对试题文本进行深层语义分析。本文中的句子拆分工作,是针对地理选择题的特点,提出了利用逗号对选择题的选项进行可能的拆分,将较长的原句转换成语义等价的多个简单句,从而简化后续处理步骤的输入,提高后续步骤的处理能力。在这项工作中,我们使用了最大熵分类器和基于规则的启发式方法,通过两个步骤来实现句子拆分:首先识别选项中的逗号是否可以作为一个分割点,然后再识别句子的从句或并列结构的公共前缀边界。AMR是一种具有较为强大表达能力的新型语义表示方法,它可以将一句话的语义用单根的、有向的连通图表示出来,更强调句子的抽象语义,而非具象的语法表达方式。但是由于围绕AMR的研究才刚刚起步,目前已有的AMR自动分析效果还有很大待提升的空间。中文AMR的标注语料规模较小,将AMR应用到中文的研究几乎还是空白。本文在AMR方面的工作主要是对现有AMR分析算法进行一些实验分析,并首次验证AMR标注体系及自动解析算法在中文上的性能。针对地理试题,我们标注了一个小样本的AMR语料,并用现有算法来验证AMR在特定领域文本上的处理能力。为了支撑上述两项问题理解的研究工作,我们还构建了一个地理试题标注工具,并通过这个工具建立一个高质量的地理试题语料库。除了可以标注句子分割和AMR这两种信息,该工具同时支持标注分词、词性、命名实体、地理术语、试题模板表示、成分句法等各项数据。
其他文献
法国施耐德电气有限公司推出Sh0reBOX岸电集成解决方案,可安装于岸电电源功率为12MVA~15MVA的邮船、1MVA~8MVA的集装箱船、2MVA~9MVA的邮船,以及渡船等小型商船上使用。
与现代财政制度建设要求相比,现行全口径预算制度只是初步实现了将各类政府收支纳入预算的目标,各预算的功能定位、管理模式以及相互间资金往来规则等尚不明晰。本文在深入分
我国将与俄罗斯合作共同探测火星.于2011年10月发射我国首个火星探测器“萤火一号”。
本文对分段函数就分段点与非分段点两种情形探讨其可导性,重点讨论分段点的可导性,通过求相关初等函数导数的函数值或其极限的方法来简化分段函数可导性的判别与计算,用实例验证
由中国电信股份有限公司四川分公司、美国IBM公司、四川长虹电器股份有限公司等60余家通信运营、IT系统提供、软件开发、设备研制、模块设计企业及科研院所共同发起并参与的
美国国家航空航天局(NASA)发布了最新的高科技太空飞船发动机——氙离子推进器。图片显示了真空室里白蓝色舷窗里小小的蓝色喷气推进器。蓝色发光来自于粒子离开发动机失去能量
《数据的收集与整理(一)》一课的同课异构,几位教师在大环节上没什么差别,都是让学生产生统计需要、经历统计过程、分析统计数据,但在几个看似很小的问题的不同处理上,如表格的空降
随着科学技术的不断进步,劳动效率的提高,有机构成逐渐提高,导致企业对劳动力的需求相对减少,相对过剩人口增多。目前我国研究生不断扩招,学校提供的劳动力越来越多,引发了研究生就
研究并总结了系列复合冷作模具钢在航空、航天、军工配套工模具如拉刀、搓丝板、冲裁模等方面的应用。实际生产情况表明,采用系列复合冷作模具钢可延长模具寿命,并大大降低原材
本文以一些常见的语法现象为实例,从语音角度出发,通过探寻法语语音和语法间的紧密联系来巧妙理解法语语法知识,从而有助于学生更为轻松有效地学习相关法语语法知识。