论文部分内容阅读
Blog作为一种新兴的个人媒体,正逐步流行于互联网中。它承载了大量有价值的信息,已经成为当前互联网应用研究中的一个热点。针对Blog的研究诸如Blog社区发现,Blog主题提取等日益引起人们的关注,这些研究都需要结构化的Blog信息。于是对Blog网页的信息抽取成为不可或缺的研究内容。Blog网页的信息抽取相比于传统网页的信息抽取有着很大的区别。首先,Blog网站由于自身信息量大的特点,广泛使用了Web2.0的Ajax技术。普通的网络爬虫无法获取这种异步传输的数据内容。其次,Blog网站强调个性化的理念,它们允许Blog的作者随意修改自己Blog网页的布局。这就让原本已是半结构化难以处理的HTML网页信息更灵活,给传统的信息抽取算法提出了个难题。本文对Ajax技术进行深入的分析之后,提出了通过执行JavaScript与重建DOM树的方式获取异步网页信息的方案。该方案在本文的原型系统中实现,实验中对sohu.com, sina.com等几个国内大型应用Ajax技术的Blog网站进行数据抓取,实验准确率能达96%以上,效果较为理想。本文对Blog网页的结构和语义信息进行了深入的分析之后,定义了网页“块(Block)”的概念。根据Blog网页半模板化的特点,提出了使用结构与语义两个特征作为信息抽取的依据。本文提出使用ontology来表示Blog中信息与Block的关系,Block与Block的关系,语义与Block的关系以及语义与信息的关系,建立Blog信息抽取的知识库。本文针对Blog站点模板以及架站技术日新月异的变化,实现了一种扩展性较强的抽取规则生成算法,方便的应用于Blog网站模板发生变化的情况。在本文的原型系统实验中证明,本文提出的这种Blog ontology信息抽取算法有着较好的性能,在效率上也有一定优势。基于以上的研究成果,本文设计并实现了一个Blog信息抽取的实验原型系统,包括异步网络爬虫、生成抽取规则、信息算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。