针对不规则网页的双向特征父子CRF抽取模型的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:shenzhiying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网已经逐渐成为一个飞速增长的信息仓库,其包含的信息内容也是丰富多彩的。因此,网络信息抽取在信息集成领域也逐渐成为越来越重要的工作。由于大多数课程信息网页不具有固定的排版格式,使用现有的简单基于规则抽取器和复杂的CRF统计模型都无法有效地进行数据抽取,不能很好地完成非规则网页的课程信息抽取。   本文提出一种全新的CRF模型,称作“双向规则父子条件随机场”(以下简称双向父子CRF)。使用这种模型可以解决以上叙述的问题。新模型将集中研究父节点与了节点之间的影响因素,同时,放弃兄弟节点之间的影响因素,这样可以使得模型复杂性得到大大的降低,其结果是以接近于线性CRF模型的复杂度来获得高级CRF模型的抽取效果。进而,本文提出了一种新颖的特征函数,称为“双向特征函数”,其中能够同时考虑当前节点的父亲节点和第一子节点。   实验结果表明,本文提出的方法对于网页信息抽取能够同时具有较好的抽取效果和较高的抽取效率。使用600个结构化网页和200个非结构化网页来进行试验,其中,结构化网页来自于MIT的OCW(Open Course Ware)项目网站和SUNY(The State University of New York)大学课程网站,非结构化网页则是随机的从互联网上下载得到。同时,还针对300个电子产品网页进行了拓展性试验。与线性CRF、原有树型CRF以及基于规则的抽取方法相比,使用本文的模型,能够得到最好的综合抽取结果。还针对双向特征函数的改进效果进行了专门实验,实验证明,新的特征函数使模型在针对结构复杂的元数据域(例如课程综述和课程大纲等)进行抽取时具有明显优势。
其他文献
自提出至今,面向侧面编程(Aspect-Oriented Programming,AOP)技术已被证明可以有效地改善软件的可维护性、可理解性以及可演化性。为了使用AOP技术重构遗产软件,首先需要自动或
无线传感器网络是由大规模传感器节点利用无线信道组成的多跳自组织网络,其中,传感器节点在其微小的体积内集成了数据采集、数据处理和无线通信等多种功能。传感器网络引发了信
Web已经成为一个庞大而复杂的信息仓库。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。Web中一类重要的信息网页是数据提供网站的动态W
基于图像的绘制技术(IBR)作为计算机图形学、计算机视觉和图像处理多领域交叉的热点研究,近十年来取得了显著进展。其中,基于图像的视觉凸壳(IBVH)方法将建模的思想引入绘制,使
日前,传感器网络(Sensor Networks)技术已经被广泛应用于很多领域如空气质量监测、水体污染监测等。在这样的监测应用中,相比于原始感知数据,用户对所监测区域内数据的实时分布
在大多数无线传感器网络应用中,受频段和成本的限制,传感器节点往往共享同一信道,这种共享信道的无线传感器网络经常遭受由并发链路带来的干扰。并发链路的干扰严重降低了网
近年来,随着移动通讯技术和海量数据的采集存储技术飞速发展,移动运营商积累的数据空前增长。这些数据中包含着关于用户行为习惯的信息,其中用户间使用通话,短信等方式进行的联系
混合动力汽车是近年来受到高度关注并且得到高速发展的一种汽车,其结合了传统动力与电动力,以实现低燃料消耗及低污染排放。混合动力汽车的核心问题是实现最优的动力分配策略以
本文以当前我国军队信息化装备建设为背景,以军用指控软件中无线信息传输研究为着眼点,提出了通过改进军用指挥控制软件中无线消息传输部分的消息队列传输机制,进而提高无线通讯
随着计算机用户个人信息量日益扩大,如何帮助用户在系统中快速找到所需资源已成为当前智能交互行为模型的重要课题。设计用于协助用户查找资源的智能工具可以缩短用户在个人信