论文部分内容阅读
语义表示作为自然语言处理的重难点,一直是学界研究的热点问题。面对语言计算从句法向语义层面转型的大趋势,现有的语言资源包括概念语义、框架语义和情境语义方面都有不同程度的发展,将多层次多类型的语义资源融合,构建一个深层语义表示的语言知识库成为现阶段亟待解决的问题之一。
目前对于语义表示的研究不论是从语言理论还是自动分析领域,研究方向都逐渐从句法走向了语义,句法结构的表示方法也由最初树形(tree)结构,到非投影树(non-project tree)结构,再到初步尝试和应用图(graph)结构,经历了由树到图的发展进程。而抽象语义表示AMR(Abstract Meaning Representation,AMR)作为一种全新的语义表示方法,将句子的语义抽象为一个单根有向无环图。这种抽象语义表示方法将句法和语义信息相结合,以图结构来表示语义,揭示树结构所无法表征的论元共享现象,给句子语义以更加清晰的表达。然而句子中的词语和AMR图的概念对齐信息缺失,一定程度上影响自动分析效果和语料标注质量,同时中文还未有较大规模的AMR语料库。
本文借鉴英文AMR语义表示理念,结合汉语自身特点并融合概念对齐信息,提出一套适用于汉语的句法语义一体化的表示方法,即概念对齐汉语抽象语义表示CA-CAMR(Concept-to-wordAlignment Chinese Abstract Meaning Representation,CA-CAMR)体系。具体内容包括以图结构处理论元共享问题,融合句子词语到AMR图的概念对齐信息以提升语义表示能力,并在CA-CAMR标注体系中规定汉语特殊结构及复句关系标注方法。通过英汉AMR在语义表示的对比,总结CA-CAMR对AMR的继承及在此基础上的发展,证明本文提出的CA-CAMR表示体系在描写汉语语义的优势,并且融合概念对齐信息对于语言学研究和自动分析算法设计都具有一定价值。CA-CAMR表示体系的建立为进一步开展概念对齐的汉语抽象语义表示语料库奠定基础。
在此基础上,本文进行了CA-CAMR语料库构建。以CA-CAMR标注规范为指导,采用人机结合的语料库标注方式,通过CAMR语料标注平台CAMRAnnoKit构建汉语抽象语义标注语料库。CA-CAMR语料库目前包含来自《小王子》、宾州中文树库CTB8.0(the Penn Chinese Treebank,CTB)的网络媒体语料和小学语文教材(人教版)共20149句语料。本文详细展示语料标注情况,针对试标语料的不一致现象给出消解策略,并对语料库数据进行系统地统计与分析,包括图结构、论元共享现象及汉语特殊句法结构的标注情况。统计结果表明所标CA-CAMR语料库达到一定规模,并在深层语义表示及特殊句法结构上具有优势,实现句法语义一体化标注,可以为相关研究提供语料资源支持。
最后探索构建CA-CAMR表示体系及语料库在语言本体及自然语言处理两个方面的应用价值。省略是汉语中常见的语言现象,在传统的句法语义表示方式中,含有省略信息的语言结构往往被忽视。本文利用CA-CAMR语料库考察汉语语义省略结构在大规模真实文本中的分布情况,大致描写出汉语省略现象的概貌。然后以省略现象中所占比例最高(47.3%)的省略“的”字结构为研究对象,构建一套自动识别与自动补全省略中心语的实验方案,实验结果表明该方法能够在CA-CAMR语料中有效识别及补全省略的“的”字结构,证明CA-CAMR表示体系及语料库对汉语深层语义关系表达的研究价值。
目前对于语义表示的研究不论是从语言理论还是自动分析领域,研究方向都逐渐从句法走向了语义,句法结构的表示方法也由最初树形(tree)结构,到非投影树(non-project tree)结构,再到初步尝试和应用图(graph)结构,经历了由树到图的发展进程。而抽象语义表示AMR(Abstract Meaning Representation,AMR)作为一种全新的语义表示方法,将句子的语义抽象为一个单根有向无环图。这种抽象语义表示方法将句法和语义信息相结合,以图结构来表示语义,揭示树结构所无法表征的论元共享现象,给句子语义以更加清晰的表达。然而句子中的词语和AMR图的概念对齐信息缺失,一定程度上影响自动分析效果和语料标注质量,同时中文还未有较大规模的AMR语料库。
本文借鉴英文AMR语义表示理念,结合汉语自身特点并融合概念对齐信息,提出一套适用于汉语的句法语义一体化的表示方法,即概念对齐汉语抽象语义表示CA-CAMR(Concept-to-wordAlignment Chinese Abstract Meaning Representation,CA-CAMR)体系。具体内容包括以图结构处理论元共享问题,融合句子词语到AMR图的概念对齐信息以提升语义表示能力,并在CA-CAMR标注体系中规定汉语特殊结构及复句关系标注方法。通过英汉AMR在语义表示的对比,总结CA-CAMR对AMR的继承及在此基础上的发展,证明本文提出的CA-CAMR表示体系在描写汉语语义的优势,并且融合概念对齐信息对于语言学研究和自动分析算法设计都具有一定价值。CA-CAMR表示体系的建立为进一步开展概念对齐的汉语抽象语义表示语料库奠定基础。
在此基础上,本文进行了CA-CAMR语料库构建。以CA-CAMR标注规范为指导,采用人机结合的语料库标注方式,通过CAMR语料标注平台CAMRAnnoKit构建汉语抽象语义标注语料库。CA-CAMR语料库目前包含来自《小王子》、宾州中文树库CTB8.0(the Penn Chinese Treebank,CTB)的网络媒体语料和小学语文教材(人教版)共20149句语料。本文详细展示语料标注情况,针对试标语料的不一致现象给出消解策略,并对语料库数据进行系统地统计与分析,包括图结构、论元共享现象及汉语特殊句法结构的标注情况。统计结果表明所标CA-CAMR语料库达到一定规模,并在深层语义表示及特殊句法结构上具有优势,实现句法语义一体化标注,可以为相关研究提供语料资源支持。
最后探索构建CA-CAMR表示体系及语料库在语言本体及自然语言处理两个方面的应用价值。省略是汉语中常见的语言现象,在传统的句法语义表示方式中,含有省略信息的语言结构往往被忽视。本文利用CA-CAMR语料库考察汉语语义省略结构在大规模真实文本中的分布情况,大致描写出汉语省略现象的概貌。然后以省略现象中所占比例最高(47.3%)的省略“的”字结构为研究对象,构建一套自动识别与自动补全省略中心语的实验方案,实验结果表明该方法能够在CA-CAMR语料中有效识别及补全省略的“的”字结构,证明CA-CAMR表示体系及语料库对汉语深层语义关系表达的研究价值。