用于Deep Web数据集成的数据抽取技术

来源 :浙江大学 | 被引量 : 0次 | 上传用户：yindiend

【摘要】

：

随着云计算、物联网等技术的兴起，以及以社交网络、基于地理位置服务LBS为代表的新型信息发布方式的涌现，社会信息化程度不断提高，信息系统产生了越来越多的数据，大数据时代来临

【作者】

：

张世鑫

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2014年期

【关键词】

：

DeepWeb数据集成数据抽取技术树匹配算法值类型相似 DOM树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着云计算、物联网等技术的兴起，以及以社交网络、基于地理位置服务LBS为代表的新型信息发布方式的涌现，社会信息化程度不断提高，信息系统产生了越来越多的数据，大数据时代来临了。大数据具有四大特征:Volume，Velocity，Variety，Veracity。从大数据的Variety特征可以看出，在大数据环境下的数据种类多样和来源繁多，有类似于关系型数据库的结构化数据，类似视频、音频等的非结构化数据，也有来大量的半结构化数据。半结构化的数据所占的份额越来越多，蕴含的价值也越来越大。半结构化数据来源之一是DeepWeb。DeepWeb是指Web中不能被传统的搜索引擎索引到的那部分内容，内容数据来自于能够被在线访问的数据库中，只能通过相应的查询接口动态提交查询信息来访问其蕴含的内容。DeepWeb数据信息量大，质量好，结构好。DeepWeb的数据是以半结构化的HTML页面返回的，为了利用来自于DeepWeb中的半结构化数据，如何自动化的从DeepWeb中将半结构化的数据抽取出来，转换为某种结构化的数据是亟需解决的问题。　　论文首先分析了DeepWeb数据抽取需要面对的问题，介绍了现有的研究方法，针对现有研究方法的不足以及结合Web结果页面的特点，提出一种数据抽取方法，并设计基于该方法的原型系统。本文的研究包括提出一种基于DOM树层次结构、值类型以及外观样式CSS相似的树匹配算法用于对Web页面进行划分，改进了简单树匹配算法不能真实反映树相似匹配的缺点，然后在树相似匹配的结果之上基于最长重复子序列实现一种新颖的用于识别数据记录边界的方法，接着在总结大量Web结果页面的特征基础下，基于外观样式信息总结出一些启发式规则能够非常准确的过滤噪音信息选择出主数据区域，最后本文利用改进型的树匹配算法实现局部树数据记录对齐算法，提高数据对齐算法的准确率。　　最后，本文基于所提的方法设计并实现了DeepWeb数据抽取原型系统，验证方法的有效性和较高的准确性。

其他文献

云平台虚拟计算资源的远程访问技术研究与实现

云计算是近年来IT领域的一个热门话题，普遍被业内人士认为是下一代互联网技术的基础，并将会影响到整个互联网产业的格局。当前，国内外都涌现出一批成熟的云计算产品，极大地推动了

学位

云计算代理服务器虚拟机远程访问技术用户需求

基于P300和运动想象的混合脑—机接口研究

脑-机接口(BCI)技术在大脑和外部设备之间建立直接的通讯通道，该通道跨越人体外周神经和肌肉系统，直接对外部设备进行控制，与外界环境进行交流。脑-机接口技术通常又被称为mind-

学位

P300事件相关电位混合脑-机接口系统运动想象信号处理控制策略

高质量鲁棒曲面重建

三维点云的曲面重建是计算机图形学和计算机辅助设计中的基础问题之一，在影视特效、三维游戏、三维打印、虚拟现实、数字博物馆、数字城市、逆向工程等领域有着广泛的应用。针

学位

鲁棒曲面重建细节保持法向传播距离场分辨率噪音去除

基于自然语言处理的空间信息检索优化应用研究

随着计算机技术和空间信息技术的不断发展，空间信息技术已经在众多行业得到了广泛应用。但与此同时，空间信息数据质量和数量的不断增加，给数据存储、数据检索等方面带来了巨大压

学位

自然语言处理工具空间信息检索技术搜索接口分布式存储系统命名识别

基于release engineering的大规模分布式系统自动化部署引擎的设计与实现

近年来，云计算技术作为移动计算、大数据技术的助推平台，开始广受平台提供方和消费方的关注，巨大的开发群体和开发投入同时促使云计算高速发展。国外的亚马逊平台通过云计算技术

学位

云计算分布式系统自动化部署引擎PaaS服务能力

基于社交和时间局部性的微博推荐研究

互联网发展得越来越快，在线获取最新消息已经成为几乎每个互联网用户每一条都在做的事情。海量的数据也造成了严重的消息过载问题，所以用于获取信息的网站上，消息的推荐系统具有

学位

微博推荐系统协同过滤协同排序社交网络时间局部性

车载自组织网络MAC层协议的研究

车载自组织网络以车辆为基本信息单元,可以使车辆实时监测到其附近道路上其他车辆的相关信息,通过车与车、车与路边单元的实时信息交互来保证车辆行驶安全、规避道路拥塞和提

学位

车载自组织网络MAC层协议帧聚合技术吞吐量服务信道场景仿真

语言无关的重复代码查找工具

任何的计算机系统都包含一定比例的重复代码。这些相似的代码片段的存在不仅使得整个系统显得臃肿并导致性能的下降，而且对于程序的理解，维护，移植，重构等都造成了很大的影响。重

学位

语言无关性重复代码模糊匹配倒排索引软件系统分析

面向壁画的图像分类及艺术形象定位技术研究

中国古代壁画是中国艺术史上的一朵奇葩，其丰富多彩的内容，记录着各个时代的宗教信仰、社会风貌、民俗生活等，具有重要的研究价值。随着数字化技术的发展和广泛应用，壁画图像逐步

学位

古代壁画图像分类艺术形象定位技术背景噪音线描组合

闪存缓冲区的管理算法与仿真平台研究

闪存是一种电可擦除可编程只读存储器。闪存具有访问速度快、能耗低、适用环境广和体积小等优点，因此被广泛地应用于移动设备。近年来，随着价格的不断下降，闪存越来越多地被应用

学位

闪存设备缓冲区管理算法LRU仿真平台存储特性

用于Deep Web数据集成的数据抽取技术

其他学术论文