论文部分内容阅读
随着互联网的发展与普及,Web资源成为人们获取信息的重要来源,而且相当多的资源只有通过互联网才能获得(例如未发表的论文、研究报告等)。但是随着web资源的急剧增加,如何充分利用web资源成为一件极具挑战的事情。设计合适的工具,能够根据用户的需求把web中的相关资源返回给用户,就成为一个很重要的研究课题。本文的工作是提出一种面向主题Web信息服务的架构及实现方案,设计一个基于主题的主要面向HTML网页资源的Web信息服务系统。 本文的研究目标是在中国人民大学经济学学科知识检索系统的基础上设计一个基于主题的主要面向HTML网页资源的Web信息服务系统,用户可以根据自己的研究需要,定制相应的主题服务,系统则按定制的主题将web资源尤其是Html网页资源推荐给用户。该系统在实质上是一个用户驱动的个性化集成定制系统,提供以网络资源为主的资源集合的个性化定制功能,其目的是根据用户的需求特征,通过用户定制、系统推荐和推送功能,为用户提供个性化的信息服务,减少由于信息过载对用户造成的困扰。 该系统涉及到的主要的研究内容包括以下几个方面: 1.主题描述:对主题给出具体而精确的定义,研究主题描述的方式,选择一种适合的方式描述主题,既可以与原有系统相融合,便于用户使用,不增加用户的负担,又可以对不同主题有较好的区分度并便于扩展,同时又便于主题爬虫工作。 2.用户需求描述:对用户的需求进行个性化的扩展和规范,将用户的模糊的、直觉上的信息需求通过本文的系统加以扩充和修正,得到一个较为清晰和规范的用户需求模型。 3.主题爬虫:针对用户的不同需求和不同资源类型研究主题爬虫的实现方式,既需要有较高的查准率,又要有较高的查全率,并保证主题不发生偏移。 4.网页分析:分析抓取到的网页资源的结构,在此基础上通过某种高效的算法确定网页中的主要信息块。 5.信息抽取:给出主题信息的详细而精确的定义。研究文本信息抽取技术,特别针对包含信息量大、格式相对规范的网页资源,提出一种有效的主题信息抽取算法。 6.资源展示:一方面设计一个集成的、易扩展的网络资源抓取系统的模型;另一方面针对经济学学科知识检索系统,选择一种对用户友好的推荐资源展示界面。 本文研究的重点是网络资源的获取技术和网页主题信息的提取技术,主要做了以下两方面的工作: 一是构建了一种集成式的、服务式的、易扩展的网络资源抓取系统模型,提供了对类型繁多的网络资源进行抓取的统一接口。这种模型是一对多的,当产生了一种新的资源类型的获取需求时,通过注册或安装插件的方式,就可以生成面向这种新资源的一个抓取系统。这些新生成的抓取系统之间是松耦合的,通过注册器中参数的设定和控制来进行彼此之间的通信和资源共享。 二是提出了一种对HTML网页资源进行抓取和分析、进而提取主题信息的方法。具体又可分为网页分块算法和确定主块算法。一方面改进了以标签作为分块标识的网页分块算法,既扩充了分块算法的适用范围,又消除了由于HTML标签嵌套而引起的信息遗失的问题。另一方面提出了一种基于分块基础上的网页主块识别技术,给出了主要针对主题型网页和目录型网页的确定网页主块算法。实验证明,这种主块确定算法具有较高的精确度和实用性。