论文部分内容阅读
网页关键信息抽取是指从网页中抽取关键信息。关键信息是该网页区别于其他网页的信息。网页关键信息抽取在信息检索、辅助移动设备用户浏览、网络数据分析等方面有非常广泛的应用。目前的研究注重单一的抽取方法,例如模板无关、基于模板分析等抽取方法,或者注重特定需求的关键信息抽取,例如正文抽取、标题抽取等。然而,单一的抽取方法无法回避方法中的固有缺陷,比如模板无关的抽取方法有着较强的假设,基于模板分析的方法需要人工进行语义标注等。另外在实际应用中,不同的数据分析环节对网页关键信息的需求不尽相同,而且随着时间的推移,系统应用对关键信息的需求也会发生变化。因此,本论文旨在研究融合了模板无关和基于模板分析的可扩展的网页关键信息抽取技术。 首先,本文提出了可扩展的网页关键信息抽取框架EEF(Extensible ExtractionFramework)。虽然已有很多针对信息抽取方法的研究,但是对于信息抽取框架的研究较少。该框架的可扩展性体现如下:(1)有机的结合了两种常用的网页信息抽取方法:基于模板分析和模板无关的抽取方法。其中,模板无关的方法可以根据实际需要进行灵活替换。(2)框架中的特征过滤算法是可扩展的。用户可以根据系统应用对关键信息的实际需求,添加、裁剪、替换相应的特征过滤算法。 其次,本文研究了在框架EEF下的网页正文抽取。正文作为网页的核心,在网页的所有关键信息当中尤为重要。各种网络挖掘研究都十分关注正文抽取,因为正文通常是后期分析的基础数据,所以正文抽取质量将直接影响到网络挖掘的最终效果。在已提出的框架EEF下,本文重点研究了单记录页面和多记录页面的正文特征过滤算法。该算法利用评分公式从候选模板的信息槽中识别出正文槽,进而生成正文抽取模板。评分公式考虑了正文的长度、段落和信息含量等特征。实验结果表明,在框架EEF下的网页正文抽取结果优于单独使用模板无关的方法,并且能够从本质上提高抽取精度和在线抽取效率。 再次,本文研究了在框架EEF下的网民ID属性抽取。网民ID属性在网民行为分析、网络事件分析以及网民意见领袖挖掘等应用中有重要的意义。在已提出的框架EEF下,本文重点研究了ID属性的特征过滤算法。该算法根据网民个人信息页中属性的网页特征,利用模板抽取网民ID属性。进一步,本文研究了利用Rocchio分类模型对网民ID属性进行自动标注的算法。实验结果表明,框架EEF下的网民ID属性抽取结果优于经典的MDR方法,并且能够对属性的语义进行自动标注。 最后,基于已提出的框架EEF,本文开发了一个网页关键信息抽取系统EWKMES(Extensible Web Key Metadata Extraction System),为实际的工程项目做贡献。该系统包含了预处理步骤、模板生成步骤、特征过滤与存取步骤以及抽取与输出步骤。该系统很好的体现了本文提出的框架EEF的可扩展性,对于其中的模板无关的抽取模块、特征过滤模块可以根据用户需求灵活进行添加、裁剪和替换。目前,该系统能够抽取网页的正文、标题、作者、发布时间和来源等关键信息。