论文部分内容阅读
互联网进入大数据时代,网络数据挖掘与分析系统应运而生。对于包括搜索引擎在内的所有网络数据挖掘与分析系统,网页都是它们重要的数据来源。为了保证网络数据挖掘与分析系统的输入数据质量,如何从网页中提取出整洁的结构化数据成为不可回避的关键问题。网页信息抽取正是解决这类问题的技术。 论坛是互联网内容的一种重要的载体,如何解决论坛网页的抽取成为网页信息抽取的关键问题之一。实验表明,互联网上70%的论坛网页是由开源软件生成的,本文针对这一现象,致力于研究针对开源论坛网页的信息抽取方法,以及对应的抽取异常检测与修复技术,进而提升论坛整体的抽取效果。本文的主要贡献如下: 1.针对开源论坛网页的信息抽取方法 本文首先提出了基于网页结构相似度的簇划分策略,并通过实验证明该策略优于直接基于软件版本号等直观类别的划分策略。然后提出了一种有效的数据记录挖掘算法,并利用基于数据记录特征的聚类算法,将大规模开源软件生成的论坛网页进行有效地自动划分,形成可标注类别。对于每个聚类中的中心页面,利用SoftMealy算法进行抽取模板的配置。最后,针对新网页,本文使用与其结构最相似的簇的模板进行信息抽取。 2.抽取异常检测与修复算法 对于抽取异常的检测,本文提出了基于结构的异常检测方法和基于内容的异常检测方法。基于结构的异常检测方法不需要考虑具体的抽取属性,根据模板的中心页面与网页的相似距离自动判断是否异常;基于内容的异常检测方法主要利用规则和机器学习两种方法进行判断,该方法不局限于基于模板的抽取算法,还可以扩展到自动抽取算法的应用中。对于抽取异常修复,本文提出了URL正则自动学习的方法,从而在定位特征库和模板库的动态扩充中,自动采集训练网页集,提高了异常修复流程的自动化程度。 3.设计并实现了针对开源论坛网页的抽取系统 针对本文提出的抽取算法以及异常检测与修复算法,本文设计并实现了针对开源论坛网页的抽取系统。抽取系统共包括定位特征库构建模块、网页聚类模块、网页采集与抽取模块以及异常检测与修复模块四个主要模块。 实验表明,本文提出的针对开源论坛的抽取算法有很高的准确率,针对抽取算法的异常检测与修复算法同样也有很高的准确率、通用性和较高的自动化程度,这使本文设计的系统在保证高质量的抽取前提下,稳定高效地运行。所以,本文的研究成果有很好的应用价值。