论文部分内容阅读
近年来,随着Internet/Web技术的快速普及和迅猛发展,商业网站之间的竞争日益激烈,了解用户的网上浏览与使用行为、习惯变得越来越重要。越来越多的网站想了解用户是怎么使用该网站的,哪些地方更受欢迎,不同人群的关注点存在着哪些差异等,Web挖掘被越来越多商业网站重视、应用。
本文主要针对Web挖掘中的网络用户细分行为进行挖掘研究,根据用户的网络行为进行细分,通过对大量访问用户的网络日志深入聚类研究,把用户进行分类,了解不同类型用户的访问特征,以期达成更好支持网络产品建设与网络广告销售。即一方面,根据不同用户使用特征,探索网络产品或服务的改进机会;一方面,通过对不同用户关注点的了解,对其进行广告客户相关产品或品牌的推荐。
首先,本文结合网络数据的具体特点对两种传统的聚类分析方法层次聚类法和k—means聚类法,进行分析,指出传统几类聚类方法的不足之处,包括对大型数据的处理、聚类数的确定和聚类变量的选择。针对以上传统聚类方法的不足,本文着重考虑采用基于预测强度的聚类方法。预测强度的直观含义是当前聚类结果能正确预测新样本点的能力,一个好的聚类结果,应该使得预测强度达到最大。根据这一准则,可以将预测强度作为目标函数,而聚类数和变量子集的选择作为影响因素,通过极大化预测强度,来找出最优的聚类数和变量子集。
预测强度方法并不是一种新的聚类算法,而是对现有聚类算法的一个重要补充,它可以统一地解决聚类数确定和变量选择两个重要问题,同时特别适合于大样本的数据,因此它很好地解决了传统聚类方法的几点不足。
在实证研究中,本文分别采用了传统聚类方法和基于预测强度的聚类方法来得到聚类的结果。在传统方法中,得到的各类别的数量差距过大,同时各类别的含义不够明确,说服力不强。而在新方法中,通过对数据进行数据变换、样本筛选、聚类数和变量数的选择等操作,最终将访客聚成了5类,实证研究表明该方法具有良好的解释力。
对比传统方法和新方法,本文主要得出了以下几点结论:
一、互联网数据的诸多特点使得传统的聚类方法往往不能给出很好的解决方案,而基于预测强度的聚类方法更加适用于网络中的数据。
二、现实中的很多数据不能直接采用传统的聚类算法进行分析,而需要有一系列的数据清理过程,否则容易得出不可靠的结论。
三、预测强度方法针对传统聚类方法的不足进行了补充,它可以统一地解决聚类数的选择和聚类变量的选择这两个重要的问题。
四、基于预测强度的方法由于使用了更加科学有效的评判准则,其得到的结果更具可靠性和说服力,是对传统聚类方法的一个加强。
五、对于使用预测强度聚类得出的结果,可以明显看出不同访客用户的行为特征,有利于区分识别不同用户的差异,并根据此差异进行产品或服务的改进,以及为广告主提供后续的差异化营销。
在本文的基础上,结合更进一步的人口信息,还可以进行列联表检验(或方差分析)以及对应分析等。