论文部分内容阅读
在过去十年里,语义Web经历了爆炸式的增长。随着语义Web中RDF数据量的增长,其结构和内容也在发生着变化。为了帮助人们了解语义Web的结构和内容,本文通过建立几种链接模型,分析其结构特征并研究其内容摘要方法。近几年,研究人员对RDF数据的结构分析与内容摘要做了大量研究,并取得了一些阶段性成果,主要集中在模式层的结构分析、本体及实体的摘要等方面。但是,无论是在大规模实例层面还是在大规模文档层面,尚未见到系统化的结构分析工作。另外,语义Web的内容摘要也面临数据规模和术语间关系展现等技术挑战,需要进一步研究。 本文对RDF数据的对象链接结构、文档链接结构、大规模内容摘要以及查询相关的内容摘要这四个问题开展深入研究,主要贡献包括: (1)为了刻画RDF数据的对象链接结构,提出了对象链接模型,并使用度分布和连通性等指标分析其结构及演化特征。通过对语义Web大规模采样的分析发现:语义Web的对象链接结构具有无标度和小世界特征,并且随着时间的推移其对象链接结构正逐渐趋好。 (2)为了刻画RDF数据的文档链接结构,提出了文档链接模型及数据集链接模型,并使用形态结构和可达性等指标分析其结构特征。通过对语义Web大规模采样的分析发现:现阶段语义Web中RDF数据能够满足互联互访的要求,但是不同组织间数据重用较少;从本体到实例文档的链接对数据互联起到重要作用。 (3)为了快速理解大规模RDF数据集的内容,提出了一个基于主题的摘要方法。该方法利用文档与术语间的实例化矩阵,导出术语间共同实例化的关系,据此将术语聚类成主题。该方法通过选择流行的主题以及主题相关的文档构成摘要的结果。实验表明该方法对于大规模RDF数据集摘要是可行及有效的。 (4)针对在本体搜索中用户快速理解本体内容的需求,提出一种面向本体的查询相关的摘要生成方法。该方法包括术语关联图生成、极大r半径子图分解、子摘要生成和子摘要组合这四个步骤。生成的摘要能够展现术语之间的关联,并满足紧致性要求。实验表明相比于其它方法该摘要方法能更好地帮助用户理解本体的内容。