论文部分内容阅读
目前Web上的信息是面向用户的,计算机无法理解,因此传统信息检索方式下,检索到的数据往往仅仅反映内容的一个侧面。在用户的需求信息和Web上的数据计算机无法准确的理解的情况下,在表示信息的Web和使用信息的用户之间产生了一道语义屏障。语义Web作为目前Web的一个延伸,目标是使Web上的数据具有机器可识别的语义,便于人机之间的交互与合作。本文的工作主要围绕一下几个方面展开。首先,介绍了Tim Berners-Lee提出的语义Web和基于主题的信息检索。在分析目前语义Web和基于主题信息检索研究现状的基础上,提出了本文的研究方向。在实验室研究项目——基于本体的XML数据集成和查询研究系统框架下展开研究。其次,阐述了论文涉及到的本体构建、Web信息采集、页面内容分析和主题相关度计算等关键技术以及面临的难点。并且针对每一个问题,提出了相应的可行的解决方案。为下面基于本体的Web信息采集系统的设计实现提供了理论和实践基础。再次,设计了一个基于本体的Web信息采集系统——Ontowing。详细介绍了系统的框架结构及工作流程、主要组成及各个部分的功能。作为SNAX系统的子系统,通过将语义网技术同信息检索技术的结合实现了系统用户相关信息资源的采集。最后,进行了系统实现,并通过实验验证了理论的有效性。对所做工作进行了总结和展望。