可扩展的网页关键信息抽取技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qsczsr15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页关键信息抽取是指从网页中抽取关键信息。关键信息是该网页区别于其他网页的信息。网页关键信息抽取在信息检索、辅助移动设备用户浏览、网络数据分析等方面有非常广泛的应用。目前的研究注重单一的抽取方法,例如模板无关、基于模板分析等抽取方法,或者注重特定需求的关键信息抽取,例如正文抽取、标题抽取等。然而,单一的抽取方法无法回避方法中的固有缺陷,比如模板无关的抽取方法有着较强的假设,基于模板分析的方法需要人工进行语义标注等。另外在实际应用中,不同的数据分析环节对网页关键信息的需求不尽相同,而且随着时间的推移,系统应用对关键信息的需求也会发生变化。因此,本论文旨在研究融合了模板无关和基于模板分析的可扩展的网页关键信息抽取技术。  首先,本文提出了可扩展的网页关键信息抽取框架EEF(Extensible ExtractionFramework)。虽然已有很多针对信息抽取方法的研究,但是对于信息抽取框架的研究较少。该框架的可扩展性体现如下:(1)有机的结合了两种常用的网页信息抽取方法:基于模板分析和模板无关的抽取方法。其中,模板无关的方法可以根据实际需要进行灵活替换。(2)框架中的特征过滤算法是可扩展的。用户可以根据系统应用对关键信息的实际需求,添加、裁剪、替换相应的特征过滤算法。  其次,本文研究了在框架EEF下的网页正文抽取。正文作为网页的核心,在网页的所有关键信息当中尤为重要。各种网络挖掘研究都十分关注正文抽取,因为正文通常是后期分析的基础数据,所以正文抽取质量将直接影响到网络挖掘的最终效果。在已提出的框架EEF下,本文重点研究了单记录页面和多记录页面的正文特征过滤算法。该算法利用评分公式从候选模板的信息槽中识别出正文槽,进而生成正文抽取模板。评分公式考虑了正文的长度、段落和信息含量等特征。实验结果表明,在框架EEF下的网页正文抽取结果优于单独使用模板无关的方法,并且能够从本质上提高抽取精度和在线抽取效率。  再次,本文研究了在框架EEF下的网民ID属性抽取。网民ID属性在网民行为分析、网络事件分析以及网民意见领袖挖掘等应用中有重要的意义。在已提出的框架EEF下,本文重点研究了ID属性的特征过滤算法。该算法根据网民个人信息页中属性的网页特征,利用模板抽取网民ID属性。进一步,本文研究了利用Rocchio分类模型对网民ID属性进行自动标注的算法。实验结果表明,框架EEF下的网民ID属性抽取结果优于经典的MDR方法,并且能够对属性的语义进行自动标注。  最后,基于已提出的框架EEF,本文开发了一个网页关键信息抽取系统EWKMES(Extensible Web Key Metadata Extraction System),为实际的工程项目做贡献。该系统包含了预处理步骤、模板生成步骤、特征过滤与存取步骤以及抽取与输出步骤。该系统很好的体现了本文提出的框架EEF的可扩展性,对于其中的模板无关的抽取模块、特征过滤模块可以根据用户需求灵活进行添加、裁剪和替换。目前,该系统能够抽取网页的正文、标题、作者、发布时间和来源等关键信息。  
其他文献
藏文信息处理的研究已有多年的历史,但直到近几年,主流的操作系统平台才逐渐完善地解决了Unicode国际标准藏文字符集支持问题,但目前仍有多种藏文编码在使用,数据交换和共享仍然
基于位置的服务(Location based Service,LBS)对于人们的生活有着至关重要的作用,而空间定位技术是整个LBS系统得以实现的核心技术。目前,以GPS(GlobalPositioning System)为代表
随着互联网和多媒体技术的快速发展,网络视频服务已经变得越来越流行,互联网上的同一视频需要为不同播放终端和不同网络接入方式的用户提供相同内容的视频服务。由于播放终端的
随着在线社交网络平台的大量涌现以及用户参与度的持续增长,我们已步入在线社交的信息化时代。社交网络中的关键人物处于网络中心或桥节点的位置,一方面,其言论具有代表性,反映了
新材料的开发和生产已经成为一个国家工业化快速发展的制约因素之一。几十年来,先进材料的研发以及利用它们所设计出的新产品使得以美国为代表的发达国家在全球保持了强有力的
近些年来,互联网基础设施发展逐渐陷入僵化形势,通过研究创新促使互联网朝良性方向演化是未来网络发展的唯一出路。未来互联网试验床为下一代互联网体系研究提供了规模可观的试
为了提高室内覆盖质量,满足用户不断增长的业务需求,LTE中引入了家庭基站技术。家庭基站的引入提高了系统容量,增强了网络覆盖,减轻了宏网的流量压力;同时也带来了干扰,频繁切
随着数据挖掘、模式识别等领域的发展,机器学习越来越受到人们的重视,作为机器学习领域的一种重要算法,支持向量机由于其优良的性能指标得到了广泛的应用。而对于面向服务器和高
量子化学(Quantum Chemistry)是应用量子力学(Quantum Mechanics,QM)的基本原理和方法研究化学问题的一门基础科学,用以研究分子体系的微观结构、性能等。由于受到QM计算复杂度和
空间科学是指利用航天器研究发生在日地空间、行星际空间及至整个宇宙空间的物理、天文、化学和生命等自然现象及其规律的科学。一直以来,太阳的活动对地球有显著的影响,日冕物