论文部分内容阅读
随着云计算、物联网等技术的兴起,以及以社交网络、基于地理位置服务LBS为代表的新型信息发布方式的涌现,社会信息化程度不断提高,信息系统产生了越来越多的数据,大数据时代来临了。大数据具有四大特征:Volume,Velocity,Variety,Veracity。从大数据的Variety特征可以看出,在大数据环境下的数据种类多样和来源繁多,有类似于关系型数据库的结构化数据,类似视频、音频等的非结构化数据,也有来大量的半结构化数据。半结构化的数据所占的份额越来越多,蕴含的价值也越来越大。半结构化数据来源之一是DeepWeb。DeepWeb是指Web中不能被传统的搜索引擎索引到的那部分内容,内容数据来自于能够被在线访问的数据库中,只能通过相应的查询接口动态提交查询信息来访问其蕴含的内容。DeepWeb数据信息量大,质量好,结构好。DeepWeb的数据是以半结构化的HTML页面返回的,为了利用来自于DeepWeb中的半结构化数据,如何自动化的从DeepWeb中将半结构化的数据抽取出来,转换为某种结构化的数据是亟需解决的问题。 论文首先分析了DeepWeb数据抽取需要面对的问题,介绍了现有的研究方法,针对现有研究方法的不足以及结合Web结果页面的特点,提出一种数据抽取方法,并设计基于该方法的原型系统。本文的研究包括提出一种基于DOM树层次结构、值类型以及外观样式CSS相似的树匹配算法用于对Web页面进行划分,改进了简单树匹配算法不能真实反映树相似匹配的缺点,然后在树相似匹配的结果之上基于最长重复子序列实现一种新颖的用于识别数据记录边界的方法,接着在总结大量Web结果页面的特征基础下,基于外观样式信息总结出一些启发式规则能够非常准确的过滤噪音信息选择出主数据区域,最后本文利用改进型的树匹配算法实现局部树数据记录对齐算法,提高数据对齐算法的准确率。 最后,本文基于所提的方法设计并实现了DeepWeb数据抽取原型系统,验证方法的有效性和较高的准确性。