汉语知识文档的语义分隔符和主题识别研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:flyskyxun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
形式文法是分析知识文档结构并从中抽取知识重要手段,然而,人工总结自然语言处理所需的文法是十分困难的。人们容易想到的方法是从语料中学习文法,但是面向自然语言的文法学习也是一个相当困难的问题,长期以来该问题一直没有被妥善解决。   我们发现,汉语中存在一类特殊的词汇一语义分隔符。语义分隔符对句子结构分析和段落主题识别都起着重要的作用。一方面,利用语义分隔符及其蕴含语义信息将句子切分成语块,然后依据语义分隔符的类别将切分结果转化为不同的文法规则,这极大的简化了文法学习和句子结构解析的过程。另一方面,语义分隔符是体现段落语义的重要特征,可将段落中语义分隔符作为标记段落主题的依据。为此,我们以语义分隔符为切入点,研究面向知识文档的语义分隔符文法、语义分隔符的学习方法、句子结构分析方法以及段落主题识别方法。   本文取得了以下的研究成果:   1.提出了一种基于语义分隔符的形式文法SSGrammar。SSGrammar从三个角度扩展了传统的上下文无关文法,使之更适于自然语言分析和处理。首先,对终结符进行分类,挖掘终结符内在的语义信息。其次,对非终结符附加语义表示,对文法规则附加语义运算,使文法具有处理语义的能力。最后,通过对文法符号和文法规则的分类,把文法学习的任务转化成语义分隔符学习,将一个困难的问题转化为相对容易的问题。   2.提出了一种语义分隔符的学习方法,该方法独立于领域知识。通过子分隔符的引入,解决了语义分隔符语义特征不明显的问题。然后,收集分隔符的配元并将其进行抽象,充分发掘了语义分隔符蕴含的语义信息,缓解了数据稀疏问题。实验结果表明,该方法取得很好效果,并可适用于不同领域。   3.构建了一个基于语义分隔符的句子结构解析器SSParser。SSParser的核心是复合名词短语识别和句子结构解析。首先,引入文本语义相似性度量,解决了名词短语边界识别问题,并为句子结构分析提供了语义上的依据。然后,在句子结构分析过程中,利用语义分隔符蕴含的语义信息,简化了句子的分析过程。最后,通过对动词分隔符二元关系的分析,使SSParser具备处理复杂句子的能力。实验结果表明,在知识文档句子结构解析的任务中,SSParser优于其他解析器。   4.提出了一种面向知识文档的主题识别方法。主题识别是将知识文档结构化的重要步骤。首先,通过主题特征和主题段落的合并聚类,降低了知识工程师理解主题段落语义以及标记主题段落的工作量。然后,利用语义分隔符的差异,解决了次级主题切分点难确定的问题。最后,通过概念空间的引入,解决了次级主题之间的语义关联问题。实验结果表明,该方法具有较高的分析知识文档结构能力。
其他文献
航天器电子设备是航天器的重要组成部分,其系统设计及设备制造需要耗费大量人力、物力成本,航天器电子设备具有伴随航天器发射后到被回收之前的不可维修性,使用地面测试系统
随着网络新闻的蓬勃发展与随之而来的信息爆炸,人们一方面可以轻易获取到广泛的资源,丰富自己的生活;另一方面,读者获得关键信息的时间成本也随之增加。如何从海量的网络新闻
所谓云服务,是指利用计算机硬件技术、软件技术、信息安全技术、网络技术、空间信息技术、通信技术、虚拟化技术、集群技术和存储技术以及并行计算等技术,将大量分布在网络中的
近年来,三维模拟技术已广泛应用于各个领域。本文主要研究基于场景的仿真应用。如场景的漫游,基于三维环境的工程仿真,自然现象的模拟,社会活动的模拟,灾害的仿真模拟(如水灾、火
近年来,随着计算机网络和信息技术的快速发展,网络安全也越来越成为人们关注的焦点。每年木马的数量都在迅速的增加,在各类非法程序中占据着最大的比重,而由木马程序所造成的
随着语义技术的兴起,目前的互联网上产生了越来越多的语义数据。这些语义数据蕴含了大量的不同领域的知识,在互联网范围内相互关联,形成了一个规模巨大的人类知识库。在特定领域
动态随机访问存储器(DRAM,Dynamic Random Access Memory)由于其较高的存储密度,较快的访问速度,成熟的制造工艺,作为主存储器(又称内存)被广泛地应用到计算系统的存储层次(Memory
重新网格化方法是将非规则结构的三角网格表示为规则结构的网格数据,这种方法既有利于网格数据的压缩,又可降低几何数据采样的非一致性.几何图像是一类规格化的重新网格化方
近年来,在线社会网络迅速发展,成为大量用户沟通交流和分孚信息的重要平台,引起国内外研究者的关注。最初的研究集中在朋友关系,但是朋友关系难以体现信任或者亲密程度。为了
基础线性代数库(BLAS)是一组线性代数核心子程序的集合,主要包括向量与矩阵的基本运算,被广泛应用于科学工程计算领域。在高性能计算领域中被广泛采用的LINPACK性能测试程序中