开源论坛信息抽取技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jizhe1983621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网进入大数据时代,网络数据挖掘与分析系统应运而生。对于包括搜索引擎在内的所有网络数据挖掘与分析系统,网页都是它们重要的数据来源。为了保证网络数据挖掘与分析系统的输入数据质量,如何从网页中提取出整洁的结构化数据成为不可回避的关键问题。网页信息抽取正是解决这类问题的技术。  论坛是互联网内容的一种重要的载体,如何解决论坛网页的抽取成为网页信息抽取的关键问题之一。实验表明,互联网上70%的论坛网页是由开源软件生成的,本文针对这一现象,致力于研究针对开源论坛网页的信息抽取方法,以及对应的抽取异常检测与修复技术,进而提升论坛整体的抽取效果。本文的主要贡献如下:  1.针对开源论坛网页的信息抽取方法  本文首先提出了基于网页结构相似度的簇划分策略,并通过实验证明该策略优于直接基于软件版本号等直观类别的划分策略。然后提出了一种有效的数据记录挖掘算法,并利用基于数据记录特征的聚类算法,将大规模开源软件生成的论坛网页进行有效地自动划分,形成可标注类别。对于每个聚类中的中心页面,利用SoftMealy算法进行抽取模板的配置。最后,针对新网页,本文使用与其结构最相似的簇的模板进行信息抽取。  2.抽取异常检测与修复算法  对于抽取异常的检测,本文提出了基于结构的异常检测方法和基于内容的异常检测方法。基于结构的异常检测方法不需要考虑具体的抽取属性,根据模板的中心页面与网页的相似距离自动判断是否异常;基于内容的异常检测方法主要利用规则和机器学习两种方法进行判断,该方法不局限于基于模板的抽取算法,还可以扩展到自动抽取算法的应用中。对于抽取异常修复,本文提出了URL正则自动学习的方法,从而在定位特征库和模板库的动态扩充中,自动采集训练网页集,提高了异常修复流程的自动化程度。  3.设计并实现了针对开源论坛网页的抽取系统  针对本文提出的抽取算法以及异常检测与修复算法,本文设计并实现了针对开源论坛网页的抽取系统。抽取系统共包括定位特征库构建模块、网页聚类模块、网页采集与抽取模块以及异常检测与修复模块四个主要模块。  实验表明,本文提出的针对开源论坛的抽取算法有很高的准确率,针对抽取算法的异常检测与修复算法同样也有很高的准确率、通用性和较高的自动化程度,这使本文设计的系统在保证高质量的抽取前提下,稳定高效地运行。所以,本文的研究成果有很好的应用价值。
其他文献
互联网技术的迅猛发展,互联网数据呈现爆炸性的增长,面临海量数据处理问题。云计算作为一种新的模型提出来,发展极为迅速。云计算开源系统Hadoop模仿和实现了Google云计算的
SaaS的核心概念是软件的服务化,即将软件看作是一种服务。SaaS具有维护方便、节省成本等许多优点,但SaaS也有缺点,其中对网络的依赖成为其最大的缺点之一。一旦失去网络的支
随着信息科技的迅速普及,互联网技术迅猛发展,社会竞争日趋白热化,信息价值主导了企业的发展,迫使企业必须有效、最大化地整和全球范围内的资源。传统的企业信息服务模式具有
随机反应扩散仿真(SRDS)有助于理解细胞内外的粒子动力学机制和信使机制、单个细胞及整个生化系统的行为机制,进而为粒子动力学假设检验、疾病治疗手段验证等提供支持。然而,此
随着经济的发展和网络技术的日臻成熟,企业开始广泛使用呼叫中心系统来与客户进行沟通交流,旨在为客户提供个性化、定制化的高质量服务,从而达到提高企业业务量的目的。一个
随着信息社会突飞猛进的发展,互联网安全问题也日益受到人们的关注。国家相关部门在对互联网安全进行决策评估的同时,也要有效利用互联网技术来提高办公效率、规范办公流程、
随着计算机技术的日益普及以及互联网的迅猛发展,计算机网络规模越来越大,同时网络连接也越来越复杂,对于网络的管理人们要求也越来越高。对于网络管理来说,网络拓扑发现功能
云计算正在加速应用到各行各业,引领IT的发展方向。然而在云计算模式下用户将数据和应用转移到云服务器或者虚拟机中,可能会受到来自云内部恶意管理员和外部云用户的攻击,加
随着信息技术的不断发展,为了提高计算机支持的协同工作的效率,必须提高信息交流和共享的质和量。虚拟现实技术与CSCW技术相融合,产生了虚拟环境的概念。虚拟环境本质上是一种CS
在当今的计算机动画制作中,传统的计算机仿真技术由于其复杂性和缺乏自主性,已显得越来越繁琐,而且很难达到逼真的效果。随着人工生命技术的发展,许多先进的智能算法被应用到