一种高适应性的网页信息抽取机制的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:pazixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,Web网页呈现爆炸式增长,web信息已经成为当今最具价值和潜力的信息来源,以此为基础的大数据分析和云计算也随之兴起。当前一些研究和应用,如数据融合、集成和分析系统、推荐系统、数据挖掘系统等都是基于海量的Web数据的研究。然而,Web页面上不仅仅包含重要的数据信息还有大量的噪声信息,面对如此庞大而复杂的Web信息,如何从中高效率准确地抽取出所需要的信息点来进一步获取数据更多的潜在价值,是一个非常有研究价值和实用意义的课题。Web信息抽取的核心是将分散在Internet上的半结构化的Web页面中含有的数据信息点抽取出来,并转化成结构、语义更为清晰的形式,以进行挖掘和利用的过程。本文的主要内容包括:首先介绍了网页信息抽取技术的相关概念和原理,深入分析研究了当前的网页信息抽取研究方法和技术,并对常用的信息抽取的特点进行研究;然后结合基于HTML结构的和基于模板规则的方式的网页信息抽取方法,设计了一套综合统一的基于规则配置的适应于不同领域抽取任务的Web信息抽取机制。在设计该网页信息抽取系统中,明确了网页信息抽取的模型,并就规则体系的定义包装、信息采集、信息抽取、自动导航等关键问题进行了详细阐述。系统将规则包装与信息采集抽取独立进行设计,设计了元素信息类型库,最终根据用户的需求配置,将抽取出的结构化数据信息存入相应的本地库。在此基础上,采用Java语言和Chrome扩展结合的方法实现了该网页信息抽取系统。在论文最后,给出了实验结果和系统分析。其结果证明本文研究设计的网页信息抽取系统能够适应各类站点常用的web信息抽取任务的需求,并且其模块独立式的设计,使得系统的信息抽取的效率和准确性都能达到较好的效果。
其他文献
作为通信业务的物质基础,无线电频谱构建了当今的整个移动通信框架。但其不是取之不尽、用之不竭的公共资源,人类对无线电频谱资源的需求急剧膨胀,各种无线电技术与应用的竞
在水动力学问题的研究中,数值模拟和模型实验都是十分重要的研究手段。许多物理模型试验研究是在波浪水槽中展开的,其结果却近似为开敞海域中的结果。然而,水槽边壁的反射会
在中国西部地区,由于高寒严酷的气候条件,受冻破坏成为水泥基材料损伤的重要原因之一。本文通过理论方法对受冻破坏过程中物理变化进行阐述,对材料在冻融循环过程中的损伤程
在冰工程领域,无论是将冰体作为一种载体利用还是对冰灾害进行预防,冰的力学性质都是极其重要的参数。冰力学性质参数包括压缩强度、抗拉强度、断裂韧度等。对冰力学性质的研
随着互联网技术的飞速发展,校园网络中智能移动终端数目与日俱增。传统的移动自组网基于IP网络,以主机为中心,始终需要面向目的地址来获取内容资源。当主机的位置和移动速率
作为一种重要的工业设备,燃气轮机被广泛用于航空、航海、汽车以及电站等众多领域,为其提供推力或产生电能。在过去的50年间,燃气轮机的进气温度不断增加。为了保证涡轮能够
移动触摸设备诸如移动智能手机、智能可穿戴设备,ATM机触控屏等,已经融入进了人们的生活,改变了人们传统以来的生活方式。这些设备通常都存储有用户的隐私信息,例如地理位置
目的:1、调查妇女不同生理时期,包括育龄期妇女、妊娠期妇女、产后一年半妇女碘的营养状况及甲状腺功能情况;2、探究妇女不同生理时期尿碘/肌酐比值(urinary iodine to creatinine ratio,UI/Cr ratio)水平与甲状腺激素、甲状腺抗体、甲状腺体积、甲状腺功能异常的关系;3、分析妇女不同生理时期甲状腺结节的相关因素。对象方法:在天津市区及滨海新区进行横断面流行病学调查
内燃机所产生的污染物已成为大气污染的重要组成部分,推广使用来源丰富、可再生、污染小的替代燃料迫在眉睫。在车用柴油中掺混适当比例的生物柴油,可在降低污染物排放的同时
近些年来,无线传感器网络被广泛应用于各种场景,例如健康管理、工业测量和农业监控等。这些应用下的传感器网络规模都很大,传统由电池供电的无线传感器网络由于其有限的生命