汉语抽象语义表示体系、资源构建及其应用研究

来源 :南京师范大学 | 被引量 : 1次 | 上传用户:hongdou0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义表示作为自然语言处理的重难点,一直是学界研究的热点问题。面对语言计算从句法向语义层面转型的大趋势,现有的语言资源包括概念语义、框架语义和情境语义方面都有不同程度的发展,将多层次多类型的语义资源融合,构建一个深层语义表示的语言知识库成为现阶段亟待解决的问题之一。
  目前对于语义表示的研究不论是从语言理论还是自动分析领域,研究方向都逐渐从句法走向了语义,句法结构的表示方法也由最初树形(tree)结构,到非投影树(non-project tree)结构,再到初步尝试和应用图(graph)结构,经历了由树到图的发展进程。而抽象语义表示AMR(Abstract Meaning Representation,AMR)作为一种全新的语义表示方法,将句子的语义抽象为一个单根有向无环图。这种抽象语义表示方法将句法和语义信息相结合,以图结构来表示语义,揭示树结构所无法表征的论元共享现象,给句子语义以更加清晰的表达。然而句子中的词语和AMR图的概念对齐信息缺失,一定程度上影响自动分析效果和语料标注质量,同时中文还未有较大规模的AMR语料库。
  本文借鉴英文AMR语义表示理念,结合汉语自身特点并融合概念对齐信息,提出一套适用于汉语的句法语义一体化的表示方法,即概念对齐汉语抽象语义表示CA-CAMR(Concept-to-wordAlignment Chinese Abstract Meaning Representation,CA-CAMR)体系。具体内容包括以图结构处理论元共享问题,融合句子词语到AMR图的概念对齐信息以提升语义表示能力,并在CA-CAMR标注体系中规定汉语特殊结构及复句关系标注方法。通过英汉AMR在语义表示的对比,总结CA-CAMR对AMR的继承及在此基础上的发展,证明本文提出的CA-CAMR表示体系在描写汉语语义的优势,并且融合概念对齐信息对于语言学研究和自动分析算法设计都具有一定价值。CA-CAMR表示体系的建立为进一步开展概念对齐的汉语抽象语义表示语料库奠定基础。
  在此基础上,本文进行了CA-CAMR语料库构建。以CA-CAMR标注规范为指导,采用人机结合的语料库标注方式,通过CAMR语料标注平台CAMRAnnoKit构建汉语抽象语义标注语料库。CA-CAMR语料库目前包含来自《小王子》、宾州中文树库CTB8.0(the Penn Chinese Treebank,CTB)的网络媒体语料和小学语文教材(人教版)共20149句语料。本文详细展示语料标注情况,针对试标语料的不一致现象给出消解策略,并对语料库数据进行系统地统计与分析,包括图结构、论元共享现象及汉语特殊句法结构的标注情况。统计结果表明所标CA-CAMR语料库达到一定规模,并在深层语义表示及特殊句法结构上具有优势,实现句法语义一体化标注,可以为相关研究提供语料资源支持。
  最后探索构建CA-CAMR表示体系及语料库在语言本体及自然语言处理两个方面的应用价值。省略是汉语中常见的语言现象,在传统的句法语义表示方式中,含有省略信息的语言结构往往被忽视。本文利用CA-CAMR语料库考察汉语语义省略结构在大规模真实文本中的分布情况,大致描写出汉语省略现象的概貌。然后以省略现象中所占比例最高(47.3%)的省略“的”字结构为研究对象,构建一套自动识别与自动补全省略中心语的实验方案,实验结果表明该方法能够在CA-CAMR语料中有效识别及补全省略的“的”字结构,证明CA-CAMR表示体系及语料库对汉语深层语义关系表达的研究价值。
其他文献
学位
学位
对中小企业有关问题的研究是当前理论界的一大热点.中国中小企业在推动经济发展、技术进步、增加就业、满足人们的多样化和个性化需求等方面发挥着越来越重要的作用.但是,中小企业受到融资难问题的困扰,其成长与壮大受到阻碍."难"是相对的.与大型企业相比,中小企业由于其与生俱来的特性,决定了它在资金融通上难度要比大企业大;同时由于历史沿革、体制与政策等因素,中国中小企业在融资难的原因又与其他国家不尽相同.信息
学位
前科报告制度,一方面对惩罚犯罪、预防犯罪具有积极作用,另一方面也忽视了刑法的教育和改造功能。对未成年人这一特殊社会群体来说,犯罪记录给其打上了“犯罪标签”,使得其在升学、就业、入伍等方面不能享受与其他社会成员同等的待遇。为了实现对未成年人的特殊保护,新《刑事诉讼法》和《刑法修正案(八)》确立了未成年人轻罪犯罪记录封存制度,由专门机关按照法定程序对未成年人的犯罪记录予以封存,除司法机关为办案需要或者
学位
开展大学生廉洁教育是我党反腐倡廉工作的深入与创新,在大学时代培养学生廉洁自律的思想意识,使其树立正确的人生观、价值观、权力观,有利于从源头上预防腐败,从根本上铲除腐败。大学生廉洁教育也是进一步加强和改进大学生思想政治教育的迫切要求,树立大学生诚信正直、遵纪守法的廉洁品德,在高校树立一种廉洁的文化氛围,在全社会形成以廉为荣,以贪为耻的良好风气。  本文首先通过对大学生发放问卷调查和在高校领导机构和教
学位
该研究的目的就是探讨1H磁共振波谱(HMRS)在精神分裂症研究中的应用价值,揭示该病的脑损害部位,研究室1HMRS在揭示精神分裂症病理生理机制中的应用价值.结论:(1)精神分裂症病人的HMRS与正常人相比明显不同,NAA降低是判定精神分裂症神经病理损害敏感的指标,比MRI更敏感.HMRS应用于研究精神分裂症的病理生理机制具有重要价值.(2)精神分裂症病人前额叶背外侧回存在神经元的缺失和功能低下,谷
南唐是唐宋变革过程的重要枢纽,也是中古转为近古的一个阶段。南唐政权文教之鼎盛与生活之放纵给我们留下了深刻印象,本文试图将南唐政权本身作为一个审美对象,探讨其基于政治而产生的江南意识,以及此种江南意识焕发出的美学之内涵。  本文首先揭示出,基于闭锁的心态,南唐人认为自己继承了大唐的文统,事实上却是将其意义从文教转为文艺,希望借助文艺巩固自己的政治地位,于是产生自我认同与外界认识的歧异。李昪将自己追认
学位
E·M·福斯特是20世纪最优秀的英国作家之一,他的创作不仅是英国中产阶级的社会风俗画,同时也包含有大量的异国描写。他从大英帝国出走四方,而后回望,展示了一个20世纪自由主义者眼中的世界图景。  福斯特世界图景的产生有其一以贯之的思想背景——自由主义。在英国传统、家庭环境、教育经历、前辈思想家等多方面的影响下,福斯特形成了自己的自由主义思想,成为他追求一生的信条。而福斯特所描绘的世界图景,主要包含以
学位
近代词学史,是指近代这一时期(1840年前后至1919年左右)词学的发展、演进与研究的历史。它在时段上上承清前期,下与现代文学史紧密相连,而与民国词学史、民国旧体文学史有所交错。近代词学一方面集历代词学之大成,另一方面又孕育着现代词学,在整个中国词学史上具有极为重要的承上启下作用。关于近代词学史的研究,是当前学界断代词学史研究之空白,亦是近代文学、学术研究之空白。  本论文绪论部分主要对近代词学史
非典型形核结构“N的A”及“A(了)N”构式在现代汉语中非常常见,虽然从严格意义上来说,这两个构式与现代汉语语法中的典型形核结构的用法大不相同,但使用频率却很高,因此本文将这两个构式作为研究对象,将其纳入事件结构范畴,利用事件结构理论及认知构式语法理论对其进行考察,建立事件结构视角下的现代汉语非典型形核构式的分类体系。  论文研究主要分为三个部分:  一、“N的A”构式所表达的状态事件的语义类型及
学位