基于历史数据的用户行为预测研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:styi613
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算技术的不断发展及互联网应用的日益普及,各行各业产生了大量信息数据,如何有效利用和挖掘过往数据,学术界和工业界开展了大量的探索与尝试。基于电商历史交易数据可以辅助提高用户体验,降低商家成本;基于用户历史支付数据可以辅助评估金融风险,建立信用机制;基于学术研究历史数据可以辅助衡量科技水平,估计科技未来发展。这些应用直接或间接的依赖于用户行为的分析与建模。因此基于历史数据的用户行为预测研究成为人们争相关注的研究热点。  受到数据种类多样、种类间关系复杂、结构化程度低、信息采集难度大等因素影响,历史数据普遍存在数据稀疏、噪声干扰等问题,使得基于历史数据的用户行为预测变得十分有挑战性。本文针对基于历史数据的用户行为预测研究中的多信息联合建模问题和关联信息辅助建模问题提出了自己的解决思路与方案,提高了用户行为预测的准确率。具体而言,本文的主要工作与贡献如下:  1.针对多种历史用户信息联合建模问题,本文提出了基于异构图挖掘的学术机构影响力预测算法。为了挖掘历史信息中多种因素及其关系对未来用户行为的影响,本文构建了一种异构图用于归纳与描述多种影响因素及其关联关系,然后对该异构图进行特征抽取与描述,并结合梯度上升回归树模型对用户未来进行预测。具体地,由于学术机构的影响力与学术机构发表的论文数量成正比,因此通过预测学术机构未来一段时间发表的论文数量可以较好地评估学术机构影响力变化情况。传统的论文数量预测方法大多基于学术机构历史发表论文数量,但是学术机构发表论文受多种因素的影响,例如权威学者数量、机构研究方向等等。利用本文提出的算法能够较好地结合多种因素对学术机构未来发表论文数量(影响力)进行预测与评估。在多个重要会议数据上的实验结果和KDDCup2016学术机构影响力预测比赛结果(第二赛季第一,共341只队)都表明该算法是一种有效的建模多种因素及其关系辅助预测学术机构影响力的算法。  2.针对用户行为预测研究中存在的历史数据不足问题,本文提出了基于多时间窗口关联信息挖掘的重复购买用户预测方法。为了预测被促销吸引来的新用户是否可能成为商店的重复购买用户,本文预测方法从数据扩充、特征设计、模型选择三个方面入手,引入丰富的用户和商店关联信息辅助重复购买用户预测。来自电子商务的关联数据十分稀疏,而且伴随着大量噪声,为此本文提出了基于多时间窗口的用户行为扩充方法,在放松用户行为时间约束的情况下,丰富了关联信息和用户行为数据。进一步,本文分析设计了多种关联信息特征,并结合两种不同的模型进行重复购买用户预测。其中,梯度上升决策树模型能够较好地建立不同特征组合与重复购买用户之间的关系,改进的因子分解机模型能够充分地利用特征之间两两组合的信息增益辅助重复购买用户预测。利用本文提出的方法能够较好地实现对商店新用户中重复购买用户的识别与预测。在天猫商城用户数据的预测实验结果和IJCAI2015重复购买用户预测的比赛结果(5/753)都验证了该方法能够有效地引入关联信息辅助重复购买用户预测。
其他文献
气动技术由风动技术和液压技术演变而来,其动力介质采用的是空气,由于其环保,低能源消耗,结构简单,使用寿命长,价格低廉等优点,越来越受到人们的重视,在各种生产中应用越趋广泛。然而
学位
无人机,指无机载作业人员即可飞行的一类飞行器。因为无人机生存能力强,效费比高,使用方便,功能多样,能有效降低战争中人员伤亡而受到广泛重视,目前各国都在竞相发展无人机技
学位
视觉美感质量评估是计算机视觉领域中非常具有挑战性的问题之一。视觉美感质量评估研究是一项高层语义理解任务,涉及到多个学科的交叉,具有重要的理论价值。视觉美感质量评估的
随着电子信息技术的飞速发展,现代高新技术条件下的战场将是信息化、智能化、精确化的战场。火炮自问世以来,一直是战争中火力作战的重要手段;火炮运动参数主要包括水平角和
打乒乓球对机器人来说是一项综合性挑战,尤其针对接打旋转球,对机器人的视觉系统、决策系统以及高速运动控制系统都提出了更高的要求。本文在已有机器人击打推挡球的基础上,重点
支持向量机(SVM)一直都是机器学习领域里的热点研究课题,在产业界也得到了广泛的应用。它建立在统计学习的VC维理论和结构风险最小理论的基础之上,泛化能力好,在很多任务中表现
针对定义在偏置换矩阵上的组合优化问题,本文提出了基于高斯平滑的渐非凸渐凹化算法,并将其应用于图匹配等组合优化问题。定义在偏置换矩阵上的组合优化问题是计算机科学领域的
作为3G增强技术之一的多用户检测由于能很好的减少多址干扰和解决远近效应问题,显著提高系统容量等方面的优越性,使得它在众多新技术中备受关注。众所周知,随着经济水平的发
HART智能设备以其兼容(4~20)mA模拟信号且具备数字通信功能的优势获得广泛地应用。数字通信的功能使其能够实现在线的监测、诊断、校验等。构建HART数字通信网络,实现HART设备
随着移动机器人应用范围的日益扩展,在动态、非结构环境下提高自主导航行为能力已经成为移动机器人研究领域的首要问题。本文以“863”高技术计划资助项目“模块化机器人体系
学位