基于维基百科的Web网页数据质量评估系统

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：godmouse

【摘要】

：

近几年来，Web信息资源呈爆炸性增长，Web网上充斥着大量重复、篡改、虚假的信息。用户在浏览网页时，往往会迷失在信息的海洋中，无法得知其所获取的信息是否精确、完整。数据质量评

【作者】

：

陈学平

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2014年期

【关键词】

：

Web数据质量支持向量机 LDA模型语义三元组质量维度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年来，Web信息资源呈爆炸性增长，Web网上充斥着大量重复、篡改、虚假的信息。用户在浏览网页时，往往会迷失在信息的海洋中，无法得知其所获取的信息是否精确、完整。数据质量评估是解决该问题的关键环节。本文在调研了国内外网页质量评估技术的基础上，结合机器学习、信息抽取等相关知识，提出了一种以维基网页作为参照基准，对用户输入源网页进行评估的方法。该方法主要步骤为：首先针对用户输入的一个网页链接，抽取网页关键字，到维基百科进行网页采集。随后用机器学习的方式对维基网页进行质量鉴别，并对通过鉴别的网页进行信息抽取，以语义三元组的形式存储。最后利用语义三元组，以比照的形式对源网页进行多维度的质量分析。本方法具有以下优点：第一，通过集成维基百科相关网页作为基准，充分利用了群众的集体智慧，能较好地反映出源网页的质量缺陷。第二，使用了支持向量机对维基网页进行质量鉴别，并以LDA模型进行主题相关度鉴别，为源网页提供了高质量、高相关度的参照网页。第三，传统的网页评估方法主要是非语义的，在本文的源网页质量评估中，采用了语义的方法，充分挖掘了网页的语义信息。理论分析和实验对比证明了本方法的可行性和有效性。

其他文献

无线传感器网络节点自身定位算法的研究

近年来,微电子技术、嵌入式技术和无线通信等技术的进步,推动了低功耗多功能无线传感器网络(WSN)的快速应用和发展。无线传感器网络可广泛应用于目标跟踪、入侵检测、野生动

学位

无线传感器网络定位位置

基于内容的三维模型检索技术研究

随着计算机图形学的发展以及三维模型获取技术的提高,三维模型的数量得到了快速增长,其应用也日趋广泛,更多的人希望能够借助某种工具,在互联网上或数据库中快速准确地找到自

学位

三维模型检索体素化特征提取相关反馈离线学习

分布式XML数据并行更新及发布方法的研究

随着基于Internet的分布式系统的发展,XML数据已成为这些系统进行数据描述和数据交换的事实上的标准。由于高数据处理性能和可扩展性是分布式XML数据更新与发布方法的基本要

学位

XML数据并行更新第三方发布真实性完整性

网上考试管理网站设计与网站安全分析

随着Internet在我国的迅速发展，远程教育和校园的信息化建设已经成为网络应用的一个新的热点。网上考试系统作为网络教育支持平台中十分重要的组成部分，是网络教育教学反馈、质

学位

网上考试远程身份认证加密md5算法md5改进算法

基于编码的XML数据存储和查询研究

由于XML数据具有不同于传统数据形式的特点,使得基于传统数据库的成熟技术不能有效地对其发挥作用,因此需要针对XML数据的特点研究新的处理方法。XML数据管理领域中最重要问

学位

编码方案动态更新文档存储文档恢复整体连接缓存列表

关系型数据库到LDAP目录服务器的数据交换平台

在市场经济的激烈竞争中,信息对于企业的生存和发展起着至关重要的作用。表达信息的数据随着时间和业务的发展而不断膨胀,而且数据分布在不同的系统平台上,具有多种存储形式

学位

异构数据整合关系数据库轻量级目录访问协议目录服务器

基于Ad Hoc网络组密钥管理的研究

Ad hoc网络无需任何基础设施，应用于各种各样需要紧急组网的场合。在这种特殊的环境中，它的安全性也越来越受人关注。本文着重于讨论，基于虚拟骨干网的组密钥管理方式，以及对数据

学位

ad hoc虚拟骨干网密钥管理

基于.Net的装备管理系统的设计和实现

本论文调查分析了地调局的办公自动化需求，结合现代开发管理系统的先进技术，以VS.NET为开发平台，设计和实现了一个装备管理信息系统，达到提高办公效率，方便办公操作，简化办公流程的

学位

流数据大对象缓冲机制设计实现性能

双平台智能地图设计与实现

在当今社会，一张简单的纸质地图已经完全不能满足人们的问路需求；而纷繁复杂的黄页，既不方便，又不全面，还不够更新。电子智能地图应运而生，将地理信息系统的数据以直观的表现形式呈

学位

本地搜索智能地图MIDlet中文分词J2ME

发电商竞价上网辅助决策系统的研究与设计

随着社会主义市场经济的飞速发展，我国电力企业从垄断向市场化改革是必然趋势，建立“厂网分开，竞价上网”的发电侧电力市场，是中国电力市场化改革的第一步。发电商将作为竞价上网

学位

发电商竞价策略决策系统BP神经网络误差分析

基于维基百科的Web网页数据质量评估系统

其他学术论文