基于本体的Web信息采集研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:baoma123ertswe_ss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前Web上的信息是面向用户的,计算机无法理解,因此传统信息检索方式下,检索到的数据往往仅仅反映内容的一个侧面。在用户的需求信息和Web上的数据计算机无法准确的理解的情况下,在表示信息的Web和使用信息的用户之间产生了一道语义屏障。语义Web作为目前Web的一个延伸,目标是使Web上的数据具有机器可识别的语义,便于人机之间的交互与合作。本文的工作主要围绕一下几个方面展开。首先,介绍了Tim Berners-Lee提出的语义Web和基于主题的信息检索。在分析目前语义Web和基于主题信息检索研究现状的基础上,提出了本文的研究方向。在实验室研究项目——基于本体的XML数据集成和查询研究系统框架下展开研究。其次,阐述了论文涉及到的本体构建、Web信息采集、页面内容分析和主题相关度计算等关键技术以及面临的难点。并且针对每一个问题,提出了相应的可行的解决方案。为下面基于本体的Web信息采集系统的设计实现提供了理论和实践基础。再次,设计了一个基于本体的Web信息采集系统——Ontowing。详细介绍了系统的框架结构及工作流程、主要组成及各个部分的功能。作为SNAX系统的子系统,通过将语义网技术同信息检索技术的结合实现了系统用户相关信息资源的采集。最后,进行了系统实现,并通过实验验证了理论的有效性。对所做工作进行了总结和展望。
其他文献
由于语义Web服务的前景良好,其采用机器可理解的方式描述Web服务的功能,从而提供Web服务之间的互操作。随着面向服务计算体系架构(Service Oriented Architecture,SOA)的快速发
近年来,以笔记本电脑、智能手机、PDA为代表的手持移动设备得到了日益广泛的应用,给人们的学习生活带来了很大的便利。相比与传统的分布式系统,移动计算有其自身的特点,开发
随着Internet的迅猛发展和日益普及,电子文本的数量急剧增加,如何有效地组织和管理海量电子文本,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学与技术领域面
光滑粒子流体动力学方法作为一种典型的无网格方法,近年来在解决计算流体力学问题时获得了广泛应用,与传统有限差分、有限元及有限体积等方法相比,该方法具有其独特的优势。本文
Internet的迅速发展为用户在网上发布和获取信息提供了极大的便利,但网上信息迅速膨胀成为信息海洋,以各种形式庞杂无序地散布在无数的服务器上,使得用户查找有价值的信息变得越
由于足迹具有相对稳定、可认定人身份、现场提取率高等特点,因此足迹识别技术在公安及安全等相关部门的工作中有着重要的作用。传统的足迹识别更多的依赖于人的经验,存在着明显
随着无线通信特别是移动通信的发展,互联网的普及,以及计算机和外设的不断增加,结合了无线通信和互联网优点的无线局域网 (WLAN, Wireless Local Area Network) 以其移动性、灵活
嵌入式系统在日常生活中显得越来越普遍,从简单的传感器到复杂的系统如:手机、网络路由器、飞机及防卫设备都涉及到嵌入式系统。另外现代化的通讯体系要求嵌入式系统必须具备通
近年来,随着IEEE 802.11协议族的不断扩充,无线网络得到了快速的发展。无线网络具有一些有线网络所没有的特性,而由这些特性带来的大量的问题至今为止并没有得到完全解决,从
本文基于Web数据库的图书信息系统是提供图书信息管理的平台,是沟通读者和图书馆的桥梁。本系统以SQL Server 2000数据库管理系统为后台数据库,采用ASP和Web网站架构技术实现基