个性化服务中用户兴趣模型的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:pxh504705648
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet 上数据量的大量增加,人们对数据的需求也越来越专业化,个性化服务技术的出现正好可以在一定的程度上解决Internet 中信息的多样化与用户需求的专一化之间的予盾,用户兴趣建模技术作为个性化服务的核心问题,主要是研究如何有效地组织用户的兴趣源,用户兴趣的表示,更新,存储以及计算,本论文主要是从以下几个方面作了研究,并通过大量的实验,验证了其有效性。(一) 问题的提出。通过对传统用户兴趣模型的大量研究,提出了不同于以往基于标准分类树或文档训练集合的用户兴趣分类方法,即基于用户浏览页面的直接分类方法。(二) 用户数据的收集。数据收集工作,在用户兴趣模型建设中是一项基础而重要的工作,主要任务是收集用户浏览页面的集合和用户在页面上的行为记录,并进行整理和组织;本文在分析利用现有各种基本数据收集技术基础上,形成了一套富有成效的数据收集方法。包括如何对收集到的文档进行标准化、如何对页面进行清洗、如何根据领域字典进行特征词的提取、如何统计特征词的词频、以及如何将其表示成文档特征向量矩阵形式等;为收集用户的行为数据,则采用了在客户端设计一个可以捕捉用户行为数据的浏览器插件的方法,在每次用户浏览结束时该插件能够把用户在该页面的操作序列进行统计保存。(三) 特征权值的计算。对基于页面内容的特征权值计算本文分析采用了一种改进的TF-IDF-IG 公式;对用户行为与网页兴趣度的关系计算,则是采用建立用户行为回归方程方式,然后根据回归方程计算出用户对所浏览页面的兴趣度;最后把计算出的基于页面内容的特征词权值和用户对页面的兴趣度合成一个完整的文档特征向量的特征权值,表示成页面特征向量矩阵。(四) 用户兴趣模型及生成。通过对层次聚类和k-means 聚类方法的比较,提出了组合层次聚类算法来生成用户兴趣树,该算法有效地避免了层次聚类的合并或分裂的缺点,同时也避免了k-means 聚类易陷入局部最有解的缺点,通过实验验证,本文研究用户兴趣模型对计算页面兴趣分类和相似度的准确度上有较大的提高。该论文研究提出的用户兴趣模型,可以用在用户个性化信息服务领域、客户信息管理、电子商务、以及数据挖掘领域。
其他文献
《楚辞·九歌》是战国时期楚地特有文化的产物,当时当地信鬼崇巫、戎祀并重的社会现实是《九歌》得以产生的重要背景。本文试图以此为出发点,结合文献、考古、民俗三个层面的
随着通讯技术、网络技术和半导体技术的飞速发展,Internet技术正在逐渐向工业控制和嵌入式系统设计领域渗透,实现Internet互联这是当前嵌入式系统发展的热点领域和重要方向。
中国英语作为一种语言的变体,在国际交流中发挥着越来越重要的作用。正确领会中国英语的本质,客观审视中国英语的现状,看清中国英语的发展趋势对于保证中国英语的健康成长,更
主观幸福感(Subjective Well-being,简称SWB)是衡量人们生活质量的一个重要的综合性心理指标,是积极心理学中最为引人注目的一个领域,也是最近在国内比较新的研究课题。虽然
马克思主义哲学与黑格尔哲学之间的对立,实质上是历史科学与精神科学的对立,而作为历史科学方法论的唯物辩证法与作为精神科学的黑格尔辩证法的对立,实质上是唯物论与唯心论
嵩县金矿主矿体赋存在构造蚀变带内,针对其采用浅孔留矿采矿法存在的采场安全性差、采矿损失贫化大等问题,基于采场作业安全、矿岩地压稳定、降低采矿损失贫化、保证采场生产
数字水印是解决当前多媒体版权保护的一项极有潜力的技术。通用的数字水印算法包含水印嵌入和水印提取检测这两个基本方面,主要分为空间域技术和变换域技术,变换域算法具有较
人本管理涉及复杂的理论问题和实践问题,是经过多年的管理实践逐步形成的管理模式,是提高管理效率和效益的有效方法。在高职院校科研管理工作中实行人本管理应坚持具体问题具
本文以星载毫米波雷达信号处理系统的研制为背景,深入研究了星载雷达信号处理系统设计与实现的若干理论和关键技术,主要包括中频正交采样、数字脉冲压缩、空间运动目标检测和
美国教育家约翰·杜威(John Dewey)以崭新的视角构建了他的民主主义教育观,对美国乃至全世界的教育民主产生了深远的影响,深入探讨其民主主义教育思想的丰富内涵对于促进我国