论文部分内容阅读
近年来,随着Internet 上数据量的大量增加,人们对数据的需求也越来越专业化,个性化服务技术的出现正好可以在一定的程度上解决Internet 中信息的多样化与用户需求的专一化之间的予盾,用户兴趣建模技术作为个性化服务的核心问题,主要是研究如何有效地组织用户的兴趣源,用户兴趣的表示,更新,存储以及计算,本论文主要是从以下几个方面作了研究,并通过大量的实验,验证了其有效性。(一) 问题的提出。通过对传统用户兴趣模型的大量研究,提出了不同于以往基于标准分类树或文档训练集合的用户兴趣分类方法,即基于用户浏览页面的直接分类方法。(二) 用户数据的收集。数据收集工作,在用户兴趣模型建设中是一项基础而重要的工作,主要任务是收集用户浏览页面的集合和用户在页面上的行为记录,并进行整理和组织;本文在分析利用现有各种基本数据收集技术基础上,形成了一套富有成效的数据收集方法。包括如何对收集到的文档进行标准化、如何对页面进行清洗、如何根据领域字典进行特征词的提取、如何统计特征词的词频、以及如何将其表示成文档特征向量矩阵形式等;为收集用户的行为数据,则采用了在客户端设计一个可以捕捉用户行为数据的浏览器插件的方法,在每次用户浏览结束时该插件能够把用户在该页面的操作序列进行统计保存。(三) 特征权值的计算。对基于页面内容的特征权值计算本文分析采用了一种改进的TF-IDF-IG 公式;对用户行为与网页兴趣度的关系计算,则是采用建立用户行为回归方程方式,然后根据回归方程计算出用户对所浏览页面的兴趣度;最后把计算出的基于页面内容的特征词权值和用户对页面的兴趣度合成一个完整的文档特征向量的特征权值,表示成页面特征向量矩阵。(四) 用户兴趣模型及生成。通过对层次聚类和k-means 聚类方法的比较,提出了组合层次聚类算法来生成用户兴趣树,该算法有效地避免了层次聚类的合并或分裂的缺点,同时也避免了k-means 聚类易陷入局部最有解的缺点,通过实验验证,本文研究用户兴趣模型对计算页面兴趣分类和相似度的准确度上有较大的提高。该论文研究提出的用户兴趣模型,可以用在用户个性化信息服务领域、客户信息管理、电子商务、以及数据挖掘领域。