基于网络日志的用户行为分析与研究

来源 :北京邮电大学 | 被引量 : 14次 | 上传用户:myjjoey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络用户规模激增,其中网购用户占比不断增大,伴随着网络用户的行为也越来越复杂。尽管目前已有很多学者对Web挖掘技术和用户行为分析等方向展开了深入研究,但是仍然存在一些问题,特别是在电商垂直应用领域,会话识别作为用户分析的基础,目前仍采用的是静态、粗粒度、低准确率的识别方法,为后续分析造成较大的原始误差。此外,由于忽略对用户购买行为的考虑,各电商平台的推荐系统存在产生大量重复、不合时宜的物品推荐而造成用户体验不佳的问题。以上这些问题亟待解决,因此本文选取电商垂直领域,重点分析和研究电商用户行为,构建基于网络日志的用户行为分析系统。本文主要研究内容包括以下几点:第一、在深入理解Web日志的数据特征、表现形式的基础上,深入调研并理解互联网用户行为,总结出了互联网用户行为所具有的隐蔽性强、主动性强、复杂多样等主要特征,并总结出Web日志挖掘在电子商务、社交媒体、搜索引擎、游戏运营、02O、P2P六大行业领域的具体应用方向。第二、基于上述的调研结果,针对电商网站的具体应用场景,提出了一种基于时间阈值和站点首页识别的混合会话识别算法,提高了会话识别算法的灵活性和识别准确率。第三、以机器学习算法为基础,结合Kmeans和GMM两种聚类算法,实现了一种两阶段聚类算法,实验结果表明,该算法在聚类结果准确率上接近于GMM的结果,但算法用时较GMM缩短了 15%-18%,实现了上述两种算法的优势互补。第四,深入研究了协同过滤和基于内容的推荐算法,对比两者的优缺点,在分析淘宝用户行为的基础上,提出了一种引入商品购买周期的推荐系统模型,从最终得到的淘宝商品推荐备选集中可以直观看出该模型大大减少了重复推荐,同时实验结果也显示,该推荐模型的推荐结果准确率较目前的ItemCF推荐算法提高了10%-15%。基于上述研究内容和成果,本文构建并实现了基于网络日志的用户行为分析系统,该系统能够根据用户需求对日志记录进行标签标注,进而实现多维度统计分析和用户挖掘,输出用户画像,能够帮助电商商家、内容提供商等了解自己的用户,通过精准营销、精准推荐等方式获得更好的商业价值。
其他文献
书面劳动合同形式不应该成为事实劳动关系的有效要件,而应该是证明要件。在我国正在制订的《劳动合同法》中,应规定用人单位负有签订书面劳动合同的基本义务和承担违背该义务
历史片区的更新是城市建设过程中一个非常重要的课题。在过去的十几年中,对于历史片区的建设普遍采用较为粗暴的方式,以追求经济效益最大化为目的。历史片区在夷为平地后,转
制药企业作为制造业中具有特殊性的行业,对产品的质量有着更加严格的要求,这就使得成本控制对于制药企业来说显得尤为重要。制药业原本的制作程序相对其他制造企业来说就较为
短文改错是知识和能力的综合测试题,它不仅能较准确地测试学生的语言知识水平,而且能客观地反映学生综合运用语言的能力。本文结合作者几年来的教学经验,拟就短文改错的教学
在信息技术革命的大背景下,文化与科技深度融合已经成为推动文化发展的重要引擎。文化与科技的关系是在人类社会发展进程中形成的、塑造文化行业发展基本形态的决定性力量。
毛囊发育具有周期性,其发育周期受多种调控。生物体内的一些生长因子如VEGF、HSP和EGF等可以通过直接或间接的方式影响毛囊的生长发育;一些如Wnt,BMP/TGFβ等相关信号通路也
21世纪初的十年间,天然气地球化学理论、技术、方法取得了长足进展。其中基础理论方面在天然气氢同位素组成影响因素及其示踪、稀有气体38 Ar的形成条件及指示意义、天然气藏
在我国传统的住宅建设中,消耗的资源和能源较多并会排放大量的污染物,对环境造成严重污染,破坏人们赖以生存的环境,影响着人们的生活品质。住宅产业化的概念首先是在日本提出
自布劳—邓肯模型建立以后,教育一直被当做获取社会经济地位的主要变量。文章采用2011年CSS的相关调查数据,着重讨论了教育对人们社会经济地位获得的作用力大小。通过考察教
为深化教师教育改革,教育部发布了《教师教育课程标准(试行)》。而成功地实施高期望的标准,必然需要一种系统的标准驱动的教师教育改革,从而确保高校教师教育机构培养出来的