论文部分内容阅读
近年来,大数据作为当下热门话题被人津津乐道,来自全球管理咨询公司的麦肯锡如此说道:“数据早已广泛的运用到现今的每一个职业,化为当前最紧要的生产要素。挖掘大数据所隐含的内容、有效的使用大数据,能够促进了生产力的增加”。随着“大数据时代”的到来,大数据的普遍使用,使得数据的数量成倍的增加,以前我们会认为这些数据是一些没有用的网上垃圾,但随着技术的发展和对数据的收集与分析,才深刻的认识到数据在生活中的重要作用,并且可以指导一些企业的发展方向。当下如何使用这些数据,并从这些数据当中发现一些隐含的规律,成为目前研究的一个热点问题。网络运营商就是执行网络运营和为用户供给服务的一个实体,在为用户供给服务的同时,还会保存用户查看网页的所有数据,并且依靠这些数据,用户的所有行为习惯都会被网络运营商获知,这样更加有利于针对不同的用户推销他们更加倾向于购买的产品,从而使得网站营销更加精确、有针对性。因此,本篇论文便是以某电商网站的Web日志记录为例,提取这些数据所包含的用户特征属性,并且我们可以使用对属性特征加权的朴素贝叶斯分类器,来对不同的用户的消费倾向性进行归类预测。本文通过以下几点来实现:(1)从Web日志预处理、用户特征属性提取和用户行为分析三个方面着手,挖掘出Web日志中关于大数据的用户行为记录,并详细的从这三个方面入手,重点突出地介绍前两个方面。(2)对冗余数据等不需要的数据进行清理、辨认是否为独立用户、识别是否为新操作等数据预处理操作进行详细的分析,提出了基于Spark的特征属性提取方法,对于用户访问所产生的Web日志,进行提取用户的特征属性,比如说商品的种类,用户的地理位置,访问及其等待的时间。(3)依据贝叶斯分类所需要属性之间条件独立作出更改,设计了基于特征属性加权的朴素贝叶斯分类器。使用获取的有关用户行为的属性值,利用特征属性加权的朴素贝叶斯分类器计算分析,实现对用户的高低消费行为倾向性进行分类。(4)基于Spark框架下,对不同的电商网站的Web日志,进行对网络用户的行为大数据分析,我们根据爬虫得到的用户在网站的浏览和购买记录,可以对用户的购买意向进行预测。