论文部分内容阅读
形式文法是分析知识文档结构并从中抽取知识重要手段,然而,人工总结自然语言处理所需的文法是十分困难的。人们容易想到的方法是从语料中学习文法,但是面向自然语言的文法学习也是一个相当困难的问题,长期以来该问题一直没有被妥善解决。
我们发现,汉语中存在一类特殊的词汇一语义分隔符。语义分隔符对句子结构分析和段落主题识别都起着重要的作用。一方面,利用语义分隔符及其蕴含语义信息将句子切分成语块,然后依据语义分隔符的类别将切分结果转化为不同的文法规则,这极大的简化了文法学习和句子结构解析的过程。另一方面,语义分隔符是体现段落语义的重要特征,可将段落中语义分隔符作为标记段落主题的依据。为此,我们以语义分隔符为切入点,研究面向知识文档的语义分隔符文法、语义分隔符的学习方法、句子结构分析方法以及段落主题识别方法。
本文取得了以下的研究成果:
1.提出了一种基于语义分隔符的形式文法SSGrammar。SSGrammar从三个角度扩展了传统的上下文无关文法,使之更适于自然语言分析和处理。首先,对终结符进行分类,挖掘终结符内在的语义信息。其次,对非终结符附加语义表示,对文法规则附加语义运算,使文法具有处理语义的能力。最后,通过对文法符号和文法规则的分类,把文法学习的任务转化成语义分隔符学习,将一个困难的问题转化为相对容易的问题。
2.提出了一种语义分隔符的学习方法,该方法独立于领域知识。通过子分隔符的引入,解决了语义分隔符语义特征不明显的问题。然后,收集分隔符的配元并将其进行抽象,充分发掘了语义分隔符蕴含的语义信息,缓解了数据稀疏问题。实验结果表明,该方法取得很好效果,并可适用于不同领域。
3.构建了一个基于语义分隔符的句子结构解析器SSParser。SSParser的核心是复合名词短语识别和句子结构解析。首先,引入文本语义相似性度量,解决了名词短语边界识别问题,并为句子结构分析提供了语义上的依据。然后,在句子结构分析过程中,利用语义分隔符蕴含的语义信息,简化了句子的分析过程。最后,通过对动词分隔符二元关系的分析,使SSParser具备处理复杂句子的能力。实验结果表明,在知识文档句子结构解析的任务中,SSParser优于其他解析器。
4.提出了一种面向知识文档的主题识别方法。主题识别是将知识文档结构化的重要步骤。首先,通过主题特征和主题段落的合并聚类,降低了知识工程师理解主题段落语义以及标记主题段落的工作量。然后,利用语义分隔符的差异,解决了次级主题切分点难确定的问题。最后,通过概念空间的引入,解决了次级主题之间的语义关联问题。实验结果表明,该方法具有较高的分析知识文档结构能力。