基于文本挖掘的APP推荐系统研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:tanglang1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2007年苹果公司发布了iPhone,短短的几年间,智能手机应用(MobileApplication,App)数量的爆发式增长,虽然极大方便了用户的生活、工作,同时也带来了如何从海量应用中寻找、选择合适应用的难题,使得App推荐系统成为当前的研究热点。  以往的工作大多将传统的推荐系统算法应用在App推荐领域,目前主要还面临如下问题:根据应用市场数据集特点,如何有效利用App描述文本数据促进推荐效果;应用市场中新App层出不穷,如何有效的解决推荐系统中的App冷启动推荐问题。  针对以上问题,本文开展了基于文本挖掘的App推荐系统研究。首先通过引入App文本数据,提出了三种相似用户发现算法:利用App文本信息结合时间衰减模型构建用户文档,提出了基于时间敏感的TF-IDF TextRank算法进行用户关键字提取,利用用户关键字进行相似用户发现;基于话题模型抽取App话题特征,根据用户下载记录构建时间加权的用户话题特征,用以相似用户发现;根据用户与App间的下载关系二部图模型,考虑时间因素的影响,构建了用户与App间的时间加权的下载矩阵进行用户相似度计算。为了解决App冷启动问题,受协同话题回归启发,本文将App话题特征与App矩阵分解特征融合,提出了在线计算的协同话题矩阵分解算法,不仅能够解决App冷启动问题,还能够扩展到大数据集情况下。为了保持原有用户、App相似性,本文提出了基于话题模型及近邻约束的矩阵分解算法,设计了近邻用户与近邻App两种约束情况下的矩阵分解算法,在解决App冷启动的前提下保持原有的相似性关系。最后,针对本文提出的算法,在360手机助手应用市场真实数据集上进行了评测,验证了本文算法在App推荐方面的有效性。
其他文献
概率主题建模是发现数据中隐藏的主题结构的一类方法。在概率主题建模中引入数据本身具有的标注信息,将无监督概率主题建模拓展成为监督概率主题建模,是概率主题建模的一个重要
本文介绍了一种新型时间自动机模型——有限精度时间自动机。它介于离散时间自动机和连续时间自动机之间,可以描述异步系统并进行相关性质的验证。所谓“有限精度”,是指有限精
数据中心能耗控制与应用服务质量(QoS)优化是当前云计算产业面临的关键问题。在保障应用QoS的前提下,优化整个数据中心资源组合与分配方式,将不同资源需求的应用程序环境(AEs)
目前,我国在许多商业和政府机构、通讯、医院、保险行业中,票据处理是个繁重的劳动。长期以来,票据管理工作因管理手段落后,各类票据的打印、整理、装订和归档需要花费大量的
Internet高速发展使互联网成为人们获取新闻的主要途径之一。但是,面对海量的新闻报道,人们经常会迷失在信息的海洋中。人们希望能够快速准确地从海量的网络新闻报道中获得新闻
聚合k最近邻查询处理技术是近年来数据库领域的一个研究重点与热点,传统的聚合k最近邻查询主要关注欧式空间,并用欧式距离来度量对象之间的邻近关系。路网中的邻近关系不能简单
随着软件系统变得越来越复杂,如何保证软件系统的可靠运行,已经成为科研人员所面临的巨大挑战。软件缺陷是软件系统不可靠的主要原因。目前已经有许多关于软件缺陷检测的研究
随着GPGPU在通用计算领域的快速发展,异构多核体系架构越来越普及,其计算能力越来越强大,GPGPU编程模型通常以主机和设备为基础,CPU执行主机端代码,GPGPU执行设备端代码只负责计算
以VoIP为代表的互联网通信作为一种典型的宽带应用正面临着前所未有的发展机遇。VoIP为语音、视频、数据业务的融合提供了一个综合的开放平台。在这个平台上,IP电话、视频播
本文对面向中文专著的汉韩机器辅助翻译进行了研究。主要成果可以归结为以下六个方面: 第一,深入地分析了中文专著的语言特点。中文专著在编写格式、语言运用上除了一般文章