【摘 要】
:
Web信息的日益增长,人们发现在浩瀚的Web信息资源中查找和发现用户感兴趣的信息成为一件非常耗时耗力的事情,因而出现了"信息过载"和"信息迷向"的问题.个性化推荐(personalized-recommendation)技术通过研究不同用户的兴趣,主动为用户推荐最需要的资源,从而更好地解决互联网信息日益庞大与用户需求之间的矛盾.目前,出现了许多个性化推荐系统.用户使用个性化推荐系统希望得到满意的资
【机 构】
:
清华大学计算机科学系,北京,100084 清华大学信息技术研究院,北京,100084
【出 处】
:
第二十三届中国数据库学术会议(NDBC2006)
论文部分内容阅读
Web信息的日益增长,人们发现在浩瀚的Web信息资源中查找和发现用户感兴趣的信息成为一件非常耗时耗力的事情,因而出现了"信息过载"和"信息迷向"的问题.个性化推荐(personalized-recommendation)技术通过研究不同用户的兴趣,主动为用户推荐最需要的资源,从而更好地解决互联网信息日益庞大与用户需求之间的矛盾.目前,出现了许多个性化推荐系统.
用户使用个性化推荐系统希望得到满意的资源,如果系统推荐的资源在很大程度上偏离了用户的需求,用户将放弃使用该系统.用户对个性化推荐系统的满意度很大程度上取决于个性化推荐算法的质量和效率.
本文针对现有协作过滤算法没有考虑用户的权威性问题,提出全局权威性和领域权威性的概念,并把两者跟传统的协作过滤算法结合起来.
经过实验分析,本文发现基于全局权威性的协作过滤算法和传统的协作过滤算法比较改进效果不明显.但先对资源进行分类后再考虑领域内的权威性的协作过滤算法比传统的协作过滤算法有比较明显的改进。
其他文献
在企业信息系统中隐藏着大量结构化、半结构化及非结构化存储的文本信息还没得到有效利用.结构化存储的文本信息隐藏于关系数据库内部,而传统关系数据库管理平台文本信息检索功能有限.自然语言中存在的一词多义和多词同义现象给文本检索增加了难度,由此提出了查询扩展技术提高检索结果文档数,及文档的相关度.本文设计了一个服务于关系数据库平台的信息检索系统,具备通用性、灵活性和可扩展性,解决信息系统内部大量结构化文本
时态信息处理已成为高级数据库技术研究的重要领域,自20世纪80年代以来,在基础理论、时态数据模型、时态数据语义、数据库语言和应用技术方面取得了丰硕的成果.在基础理论研究方面,加州大学洛杉矶分校的J.Ben Zvi在1979~1982年期间对时态信息处理做了系统的研究,提出了有效时间、事务时间的概念,引入了时态数据库的模型.纽约大学的J.Clifford在他的博士论文中,研究了在关系、元组、字段值上
本文首先讨论了利用9I模型进行空间拓扑关系描述时存在的不足之处,在此基础上给出了V9I模型的定义及特点并分析了基于V9I模型的空间拓扑关系,提出了一种基于V9I模型的空间拓扑规则发现机制,该机制通过分析空间对象及其邻对象间的拓扑关系模式的离散性,来发现空间对象对间的拓扑描述规则,并利用该规则来判断空间数据是否具有拓扑不一致性,进而进行拓扑一致性维护.这种基于V9I模型的拓扑描述规则的优点在于,抓住
随着Web技术的飞速发展,人类交换信息的方式正发生着深刻的变化.极大的改变了人们发布,获取,使用信息的方式.人们从信息缺乏进入了信息极大丰富的年代.但另一方面,Internet所固有的海量数据的分布性,异构性,动态性又对互联网环境下的数据交换和信息共享提出了新的挑战.人们面临着从海量的数据中发现自己所需的有用信息的困境,往往有"大海捞针"的感觉.而XML(可扩展标记语言)的出现很可能改变这一切.随
传统的宏观经济学是在数学和统计的基础上发展起来的,已取得一些成绩.但以往的宏观经济管理多采用常规方法,以单纯的经验判断为基础,缺乏系统的观点,忽视精密的数量计算,管理的有效性很大程度取决于相关人员的素质,没有系统地形成科学方法.加上宏观经济数据的海量性、动态性等特点,进一步限制了其分析决策能力.宏观经济关系国计民生,对宏观经济进行分析和管理是实现国民经济宏观调控的一个重要环节.由于当前的宏观经济数
Cornuejols和Dawande在文中提出了著名的市场共享问题的可行性问题,这就是通常的多维背包问题(Multidimensional knapsack problem,MKP).该问题的具体描述如下:给定一个n×m矩阵A和一个m维列向量b,要求判断是否存在一个n维的二值向量X={x1,x2,…,xn},使得式(1)成立.n∑j=1aijxj=bi,i=1,2,…,m 数学上已经证明:多维背包
自从WWW问世以来,其信息容量飞速增长.由于Internet是一个开放性、动态性和异构性的全球分布式网络,信息资源分布非常分散,没有统一的管理机构,从而导致了信息获取的困难.解决这个问题的一个有效途径就是将数据挖掘技术和Web技术结合起来,进行Web上的数据挖掘.Web挖掘可以定义为从与Web相关的资源和行为中抽取感兴趣的有用的模式和隐含信息.Web挖掘可以分为三类:Web内容挖掘(Web con
新闻数据作为一种非常重要的数据对象,在网络和期刊报纸中广泛存在,对新闻数据的挖掘尤其是重要新闻事件的查找在日常生活中有非常广泛的应用.对于查找重要新闻事件,我们一般只能通过记忆以及个人的判断来得到一些结果,而并没有科学的查找方法.针对这样的问题,我们提出一个能够对新闻数据进行挖掘的方法,该方法能够有效地找到在某一段时期内发生的一些重要的新闻事件.在本文中,我们讨论了在大量的新闻数据中查找重要新闻事
规则提取是数据挖掘研究的主要内容之一.目前基于完备信息系统的规则提取方法已经很成熟,而基于不完备信息系统的规则提取方法还不很完善.通常不完备信息系统的规则提取方法是,首先将不完备信息系统转变为完备信息系统,然后用完备信息系统规则提取的方法提取规则.而直接从不完备信息系统中提取规则的算法还不是很多.决策树方法是一种重要的数据挖掘方法,它尤其适合于挖掘分类规则.决策树方法是利用信息论中信息增益(互信息
随着数据库系统的发展,数据的多维性已经广泛地存在于各种领域.由于人类没有对高维数据的空间猜想能力,不能对其产生直观的认识,因此可视化多维数据一般是寻找一种方法把多维数据投影到二维或者三维空间,使人们对其产生直观的认识,进而从中挖掘出有用的知识。可视化技术给予用户对数据进行深入的理解和洞察的能力.本文提出的旋转坐标系折线法是一种可视化映射技术,这种技术使得多维数据集可以在二维平面上显示出来.通过拖拉