一个新闻推荐系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:y2228158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络新闻已经成为人们获取信息的重要途径。传统的新闻门户虽然拥有海量信息,却只是扮演信息集合的角色。用户只能被动式地浏览网站提供的信息,查找需要的内容。如何为每个用户提供快捷准确、满足个人实际需要的信息,已成为众多业内人士日益关注的问题。而新闻推荐系统能有效的解决上述问题,已成为互联网用户的迫切需要。   本文设计实现了一个灵活的的推荐引擎,该框架能适应各种不同数据源,组合不同的推荐算法产生推荐结果。在此基础上,本文提出了一种混合推荐算法,设计并实现了一个为爱读爱看网提供服务的推荐系统,该系统旨在为网站提供针对用户的个性化新闻推荐服务。系统通过对新闻进行自动分类、关键字提取等操作将新闻进行划分,实现新闻按分类导航浏览功能;通过用户行为的分析建立和更新用户的兴趣模型,通过推荐引擎为用户推荐感兴趣的文章。   本文主要包括三个方面的工作。第一,提出了一种基于项目内容和条件概率的混合推荐算法。该算法可以在运行时增量更新计算模型,能快速响应请求,结合了基于内容和协同过滤算法的优点,既在一定程度上解决了协同过滤算法中的评价矩阵稀疏性问题,也避免了基于内容推荐带来的均衡效果。试验结果表明,该算法在满足实时性要求的前提下,提供了较高的准确性。第二,设计实现了一个灵活的推荐引擎。其中的推荐策略框架能组合协调各种推荐算法,针对不同推荐场景选择合适的算法执行推荐任务。其中的数据入库接口、推荐接口和评价接口使框架能很好的适应不同的应用环境。第三,以爱读爱看网报刊频道为应用背景,基于上述推荐引擎,设计实现了基于LDA特征降维、量化用户模型、基于上述混合推荐算法的推荐系统。
其他文献
软件成本估算领域经过四十余年的发展,涌现出一大批估算理论与方法,但都没有在现实环境中的软件企业中得到广泛应用,在项目早期进行软件成本估算仍旧是一件非常难的任务。由于估
社会网络分析(Social Network Analysis,SNA)是使用量化方法对社会网络进行分析,研究其中个体和网络特性的学科。近年来,随着Internet的发展,大量社会网络数据的出现,尤其是由网络行
逆向工程以其在产品设计和研发中的独特优势,得到了广泛的研究和应用。作为其中的两项关键技术,点云数据简化和曲面重建具有重要研究价值。如何有效地缩减点云数据的规模并在
ICRH(Ion Cyclotron Resonance Heating)天馈线远程控制与状态检测系统是EAST-ICRH控制子系统之一。基于FPGA的天馈线远程控制与状态检测系统实现解决了新型ICRH天线和传输系
射频识别(RFID)是一种利用无线射频的远距离通信方式实现的非接触式的自动识别技术,和其它识别系统相比较具有速度快、实时性强、采集准确性高等优点。随着技术的发展,RFID系
语音识别技术具有重要的理论价值和广阔的应用前景,近年来受到了人们的广泛重视。随着电子计算机的不断应用与发展以及人工智能的不断进步与完善,人们越来越希望让机器能够理解
近年来,关于分布式哈希表(DHT)的研究非常多,有通过模拟仿真、理论分析等方法的,也有从实际测量角度出发的。eMule中基于Kademlia算法的KAD网络是当前最大规模的DHT实现,任何时刻
随着计算机和互联网的飞速发展,互联网的信息量呈现爆炸式增长。信息量的增加既为人们的生活带来了便捷,也给人们提出了巨大的挑战。在海量的信息面前如何高效的获取信息以及如
“中国Web信息博物馆”(Web InfoMall),是一个针对中国互联网信息的搜集、存储与历史浏览服务的海量信息系统,5年来已经积累超过25亿中国互联网上出现过的网页,数据量已经超过30
随着互联网技术的蓬勃发展、信息量的爆炸式增长以及深度学习技术研究和应用的普及,人们对于计算能力的需求不断提高。在传统通用计算已逐渐无力应对大规模、高并发计算需求的