论文部分内容阅读
随着互联网的飞速发展,网络用户规模激增,其中网购用户占比不断增大,伴随着网络用户的行为也越来越复杂。尽管目前已有很多学者对Web挖掘技术和用户行为分析等方向展开了深入研究,但是仍然存在一些问题,特别是在电商垂直应用领域,会话识别作为用户分析的基础,目前仍采用的是静态、粗粒度、低准确率的识别方法,为后续分析造成较大的原始误差。此外,由于忽略对用户购买行为的考虑,各电商平台的推荐系统存在产生大量重复、不合时宜的物品推荐而造成用户体验不佳的问题。以上这些问题亟待解决,因此本文选取电商垂直领域,重点分析和研究电商用户行为,构建基于网络日志的用户行为分析系统。本文主要研究内容包括以下几点:第一、在深入理解Web日志的数据特征、表现形式的基础上,深入调研并理解互联网用户行为,总结出了互联网用户行为所具有的隐蔽性强、主动性强、复杂多样等主要特征,并总结出Web日志挖掘在电子商务、社交媒体、搜索引擎、游戏运营、02O、P2P六大行业领域的具体应用方向。第二、基于上述的调研结果,针对电商网站的具体应用场景,提出了一种基于时间阈值和站点首页识别的混合会话识别算法,提高了会话识别算法的灵活性和识别准确率。第三、以机器学习算法为基础,结合Kmeans和GMM两种聚类算法,实现了一种两阶段聚类算法,实验结果表明,该算法在聚类结果准确率上接近于GMM的结果,但算法用时较GMM缩短了 15%-18%,实现了上述两种算法的优势互补。第四,深入研究了协同过滤和基于内容的推荐算法,对比两者的优缺点,在分析淘宝用户行为的基础上,提出了一种引入商品购买周期的推荐系统模型,从最终得到的淘宝商品推荐备选集中可以直观看出该模型大大减少了重复推荐,同时实验结果也显示,该推荐模型的推荐结果准确率较目前的ItemCF推荐算法提高了10%-15%。基于上述研究内容和成果,本文构建并实现了基于网络日志的用户行为分析系统,该系统能够根据用户需求对日志记录进行标签标注,进而实现多维度统计分析和用户挖掘,输出用户画像,能够帮助电商商家、内容提供商等了解自己的用户,通过精准营销、精准推荐等方式获得更好的商业价值。