基于维基百科的Web网页数据质量评估系统

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:godmouse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,Web信息资源呈爆炸性增长,Web网上充斥着大量重复、篡改、虚假的信息。用户在浏览网页时,往往会迷失在信息的海洋中,无法得知其所获取的信息是否精确、完整。数据质量评估是解决该问题的关键环节。本文在调研了国内外网页质量评估技术的基础上,结合机器学习、信息抽取等相关知识,提出了一种以维基网页作为参照基准,对用户输入源网页进行评估的方法。该方法主要步骤为:首先针对用户输入的一个网页链接,抽取网页关键字,到维基百科进行网页采集。随后用机器学习的方式对维基网页进行质量鉴别,并对通过鉴别的网页进行信息抽取,以语义三元组的形式存储。最后利用语义三元组,以比照的形式对源网页进行多维度的质量分析。本方法具有以下优点:第一,通过集成维基百科相关网页作为基准,充分利用了群众的集体智慧,能较好地反映出源网页的质量缺陷。第二,使用了支持向量机对维基网页进行质量鉴别,并以LDA模型进行主题相关度鉴别,为源网页提供了高质量、高相关度的参照网页。第三,传统的网页评估方法主要是非语义的,在本文的源网页质量评估中,采用了语义的方法,充分挖掘了网页的语义信息。理论分析和实验对比证明了本方法的可行性和有效性。
其他文献
近年来,微电子技术、嵌入式技术和无线通信等技术的进步,推动了低功耗多功能无线传感器网络(WSN)的快速应用和发展。无线传感器网络可广泛应用于目标跟踪、入侵检测、野生动
随着计算机图形学的发展以及三维模型获取技术的提高,三维模型的数量得到了快速增长,其应用也日趋广泛,更多的人希望能够借助某种工具,在互联网上或数据库中快速准确地找到自
随着基于Internet的分布式系统的发展,XML数据已成为这些系统进行数据描述和数据交换的事实上的标准。由于高数据处理性能和可扩展性是分布式XML数据更新与发布方法的基本要
随着Internet在我国的迅速发展,远程教育和校园的信息化建设已经成为网络应用的一个新的热点。网上考试系统作为网络教育支持平台中十分重要的组成部分,是网络教育教学反馈、质
由于XML数据具有不同于传统数据形式的特点,使得基于传统数据库的成熟技术不能有效地对其发挥作用,因此需要针对XML数据的特点研究新的处理方法。XML数据管理领域中最重要问
在市场经济的激烈竞争中,信息对于企业的生存和发展起着至关重要的作用。表达信息的数据随着时间和业务的发展而不断膨胀,而且数据分布在不同的系统平台上,具有多种存储形式
Ad hoc网络无需任何基础设施,应用于各种各样需要紧急组网的场合。在这种特殊的环境中,它的安全性也越来越受人关注。本文着重于讨论,基于虚拟骨干网的组密钥管理方式,以及对数据
本论文调查分析了地调局的办公自动化需求,结合现代开发管理系统的先进技术,以VS.NET为开发平台,设计和实现了一个装备管理信息系统,达到提高办公效率,方便办公操作,简化办公流程的
在当今社会,一张简单的纸质地图已经完全不能满足人们的问路需求;而纷繁复杂的黄页,既不方便,又不全面,还不够更新。电子智能地图应运而生,将地理信息系统的数据以直观的表现形式呈
随着社会主义市场经济的飞速发展,我国电力企业从垄断向市场化改革是必然趋势,建立“厂网分开,竞价上网”的发电侧电力市场,是中国电力市场化改革的第一步。发电商将作为竞价上网