论文部分内容阅读
在信息技术高度发达的今天,存在的最大问题并不是信息的缺乏或不足,而是信息量的激增已经超出人们处理信息的能力,信息的检索和利用技术的发展相对滞后。面对共享的、日益庞大的信息资源,如何针对不同用户的信息需求为用户提供个性化的服务已经成为信息管理领域的重要研究热点之一。
信息过滤主要针对用户多样且个性化的信息需求,能够从动态变化的信息源中剔除与用户信息需求不相关的信息,然后按照相关度排列把信息推送给用户。但是在现有的信息过滤系统中,信息过滤技术都存在着一定的不足。如在基于规则的信息过滤系统中,随着规则数量的增多,对于规则的管理会变得越来越困难;在基于内容过滤的信息过滤系统中,由于缺少语义信息,系统提供给用户的信息不能很好地满足用户的需求;在基于协作过滤的信息过滤系统中,某些情况下,系统找到的相似用户并不是与当前用户兴趣最相似的用户,导致系统提供给当前用户的信息不是他最感兴趣的信息。
本体技术的出现和成熟为信息过滤技术的发展带来新的机遇。领域本体提供了人们对领域概念和概念层次的共同理解,其应用能够有效地降低人们对自然语言理解技术的依赖。在信息过滤系统中引入本体,一方面可以优化用户建模,在保证系统响应速度的前提下使用户模型和信息内容的比较更准确;另一方面可以用于信息过滤,增加对语义信息的利用,在一定程度上弥补当前信息过滤算法的不足,提高信息过滤的查全率和查准率。
本文首先对信息过滤系统的发展和现状、本体技术进行简要综述。然后从现有信息过滤系统存在的问题入手,提出一种基于本体的信息过滤系统模型,并对模型中的关键技术--用户模型创建和信息过滤算法进行分析研究。用户模型创建是本文重点,文中提出一种基于本体表示的用户模型,并介绍了一个基于本体的用户模型实例。
本文的工作和贡献主要体现在以下几个方面:第一,提出模型的形式化定义和框架表示,为进一步研究奠定了理论基础;第二,提出利用描述逻辑表示的本体理论来表达用户需求的模型,该模型可以充分表达用户需求中的语义信息;第三,对于冗长的原始文本,利用文档归并算法形成有意义的段落集合,然后把段落集合转变成一个本体树构成的森林;第四,提出了基于树形结构的相似度比较算法,可以在语义级别上比较需求本体和文档本体实例的相似性。