论文部分内容阅读
万维网已经逐渐成为一个飞速增长的信息仓库,其包含的信息内容也是丰富多彩的。因此,网络信息抽取在信息集成领域也逐渐成为越来越重要的工作。由于大多数课程信息网页不具有固定的排版格式,使用现有的简单基于规则抽取器和复杂的CRF统计模型都无法有效地进行数据抽取,不能很好地完成非规则网页的课程信息抽取。
本文提出一种全新的CRF模型,称作“双向规则父子条件随机场”(以下简称双向父子CRF)。使用这种模型可以解决以上叙述的问题。新模型将集中研究父节点与了节点之间的影响因素,同时,放弃兄弟节点之间的影响因素,这样可以使得模型复杂性得到大大的降低,其结果是以接近于线性CRF模型的复杂度来获得高级CRF模型的抽取效果。进而,本文提出了一种新颖的特征函数,称为“双向特征函数”,其中能够同时考虑当前节点的父亲节点和第一子节点。
实验结果表明,本文提出的方法对于网页信息抽取能够同时具有较好的抽取效果和较高的抽取效率。使用600个结构化网页和200个非结构化网页来进行试验,其中,结构化网页来自于MIT的OCW(Open Course Ware)项目网站和SUNY(The State University of New York)大学课程网站,非结构化网页则是随机的从互联网上下载得到。同时,还针对300个电子产品网页进行了拓展性试验。与线性CRF、原有树型CRF以及基于规则的抽取方法相比,使用本文的模型,能够得到最好的综合抽取结果。还针对双向特征函数的改进效果进行了专门实验,实验证明,新的特征函数使模型在针对结构复杂的元数据域(例如课程综述和课程大纲等)进行抽取时具有明显优势。