基于聚类的Web日志挖掘方法探析

来源 :商场现代化 | 被引量 : 0次 | 上传用户:haohade
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 本文针对国内中小型电子商务网站服务器数据较少的特点以及数据的物理意义,采用了一种将数据导入Excel数据库并利用连环聚类的方法来处理Web数据的方法,为中小型电子商务网站的决策分析提供了一种较为简单的方法。
  [关键词] 聚类 Web日志挖掘 电子商务
  
  一、引言
  国内的中小型电子商务网站发展还很不健全,其浏览的用户不多、日志数据相对较少、从事后台数据分析的人员很少或没有。如何避免像大型电子商务网站一样采用大量算法来对数据进行预处理,而又能对日志数据进行挖掘,从而分析用户需求、向用户进行个性化推荐、改进网页设计是目前中小型电子商务开发商急需考虑的一个问题。
  二、Web日志挖掘过程分析
  Web日志挖掘通过分析和研究Web日志记录中的规律识别电子商务的潜在用户,提高对最终用户信息服务的质量并改进Web服务系统的性能和结构。
  1.利用Excel数据库进行Web日志预处理。Web日志文件记录中存储的是用户访问站点信息的原始记录,在使用算法或工具对其分析之前,必须进行预处理。预处理过程是Web日志挖掘质量保证的关键,因为处理后的数据好坏、全面与否直接影响到数据挖掘的结果,进而对电子商务开发商的决策造成直接影响。特别是中小型电子商务网站,其数据相对较少,因此数据处理的准确性极为重要。
  中小型电子商务网站由于浏览和交易人数少,可将数据直接导入Excel数据库,在Excel中进行数据净化、用户识别。同时,由于网站设计人员的知识架构、技术层次以及对所要设计的网站内容的了解程度的限制,很难建立一个完全反映网站逻辑信息、无重复内容网页的网站,必须进行一定程度的合并,从而将其分成能反映网站逻辑信息的同质类别。
  2.连环聚类法在Web日志挖掘中的应用。聚类分析成功地应用于众多领域,在此主要是利用K-Means快速聚类算法对数据进行聚类分析,以识别用户样本不同的行为段。由于此算法的聚类结果有一定的缺陷,本文采取了连环聚类的方法来对样本数据进行聚类以弥补快速聚类算法的不足。
  对于电子商务网站来说,一般都存在外部客户浏览网页的数据和内部管理人员浏览网页的数据两类。因此,首先对Web日志数据进行划分,分为内部系统和外部登录两部分样本数据可以减少日志挖掘的工作量,同时,分别对外部登录数据和内部系统数据进行聚类分析也有助于增加聚类结果的可靠性。其次,对数据进行连环聚类,也即对某些聚类效果不明显的聚类结果进行再次聚类,可以增加聚类结果的清晰度。
  (1)外部登录数据连环聚类。快速聚类分析是对用户指定类别的大样本资料的逐步聚类分析。其缺陷在于不能像层次聚类那样对不同聚类类数产生一系列的聚类解,且聚类结果错误率较高。根据快速聚类分析存在的缺陷,可对外部登录样本数据进行两个阶段的聚类分析。
  第一阶段聚类是首先根据数据矩阵的特点,将聚类数暂定为几类,经反复几次聚类,最终确定下聚类数。接着将聚类结果导入Excel数据库进行分析,可以发现,有些类别的数据极少,在聚类中,此类数据的误导性极大,因此必须将其隔离;而对于一些表现出了相当不同的行为特点的类别,可以将其保留,待第二阶段聚类结束后,与其结果一并归入Excel数据库进行分析;对于第三种由于类内差异较大,但是数据又比较多且较重要的類别,接着对其数据进行第二阶段聚类,进而获得更为明确的聚类结果。将两阶段的聚类结果导入Excel数据库分析整合,可以得到一个较为明确的聚类结果。如:
  某一类用户仅仅在网站上浏览了几个网页,一般称为偶然用户。对于这类用户,显然不可能从中得到一个有用的、潜在的访问模式来,因为他们对网站的访问具有很大的偶然性,对具体网页的访问也有着很大的随机性,所以如果从这些用户的访问条目中来提取用户的访问模式显然是不具有典型性和代表性的,而这种访问模式对电子商务的具体应用也就不具有任何指导性。另一类用户主要浏览某一网页组,对这一网页组浏览次数较多,而对其他网页很少涉及,几乎不浏览,可以判定此类用户是该网站某一类网页的长期用户。第三类用户为多主题行为的用户,即经常浏览网站上的各个网页组。与好奇用户(出于对网页内容的好奇而对每个网页组的网页都有浏览,但浏览次数不多且不重复)不同,多主题行为用户的浏览次数较多,因此可能就带有一定的商业倾向,电子商务开发商可以对该类用户特征加以分析,进行运用。
  当然用户类别可能不止此几种,但都可以根据他们的浏览内容得出结果并用于电子商务决策。将直接聚类结果与连环聚类结果比较,可以证明连环聚类较好的弥补了快速聚类算法的缺陷,是比较有效的。
  (2)内部系统数据聚类。内部系统的登录人员主要是网站内部工作人员,目的是对网站进行管理。如:如果聚类后分析发现某报障系统网页组的登陆率极高,那么,就能够尽快找出故障所在,及时排除故障,提高网站运营效率。
  对于一个电子商务网站,通过外部登录数据连环聚类得到相似性用户访问的聚类簇,能够为电子商务开发商提供详细的用户反馈,帮助他们根据实际用户的浏览情况,调整网站的网页链接结构和网页内容,对网站进行优化,从而延长用户的驻留时间、挽留老用户、吸引新用户,并增加用户的购买率,以此获得电子商务网站的成功运行;而通过内部系统数据聚类,也可以明确网站运营的缺陷在哪里,从而加以改进。
  三、结论
  对于国内中小型电子商务网站来说,Web日志挖掘结果对电子商务网站的发展起着至关重要的作用。基于Excel数据库和连环聚类的Web日志挖掘法具有成本小、简单、易操作等特点,对规模不大、资金实力不强的网站发展具有重大的意义。
  参考文献:
  [1]谭春辉:电子商务管理与Web数据挖掘技术的契合探析[J].情报杂志,2006,(12):9~12
  [2]凌传繁:Web挖掘技术在电子商务中的应用[J].情报杂志,2006,(1):93~95
其他文献
[摘 要] 选址在零售企业经营活动中属于投资性决策范畴,其重要性远远高于一般的经营性决策。本文介绍了基于GIS的零售商业网点选址的特点,分析了基于GIS的零售商业网点选址的影响因素,阐述了商圈划分模型和人口一致性模型,并利用缓冲区、人口密度、市场饱和度,分析基于GIS的零售商业网点选址的具体过程。  [关键词] 零售商业网点 GIS 选址    一、概述  零售商业网点是指那些把商品和劳务出售给最
期刊
[摘 要] RSS作为xml数据源应用的一种方式,已经得到越来越广泛的应用,但随着RSS信息量的不断增大,RSS应用需要一种有效的数据处理方案拓展其应用面,本文根据xquery规范,使用Qexo模型,实现一种对RSS数据查询的方法。  [关键词] Xquery XML Qexo     一、前言  RSS起源于Netscape的MY Netscrpe项目,他是资源描述框架(Resource Des
期刊
[摘 要] 当前我国城市居民的消费生活方式发生了巨大变化,通过对朋友聚餐的分析探讨影响居民消费生活方式的个人属性因素。   [关键词] 消费方式 朋友聚餐    一、问题与假设  在近20年的时间里,中国经历了社会转型的巨变,城市居民的生活方式也发生了很大变化。本文是以朋友聚餐为例,探讨我国城市居民消费生活方式的变迁及其影响因素。  1949年建国后,新中国围绕着将“消费城市转变为生产城市”的工业
期刊
[摘 要] KMV模型是一种国外普遍应用的信用风险度量模型,本文分析了该模型的基本思想和基本构成,并探讨了模型在我国的适应性。  [关键词] KMV模型 信用风险 违约    企业信用风险一直以来都是各经济主体面临的最重要金融风险,其测度、规避、防范和控制不仅是商业银行,也是投资者、供应商、服务商等面临的重大问题。本文以KMV模型为例,来探讨该模型对我国上市公司信用风险度量的适用性。  一、模型基
期刊
[摘 要] 本文从Martin和Rose的评价理论的角度对叙述式广告语篇翻译做了分析,发现英语叙述式广告语篇的汉语翻译的级差手段多于原文。  [关键词] 评价理论 叙述式广告语篇 语篇翻译    一、引言  翻译不仅是一项语言文化活动,还是语言的具體化,属言语范畴。由各种具体语言和非语言因素组合而成的语篇翻译活动,构成跨文化交际的一个重要方面。在翻译界,有多种翻译方法、翻译策略及翻译理论,如莱斯、
期刊
[摘 要] 随着电子商务的发展,计算机信息的保密问题显得越来越重要,信息安全的核心是密码技术,IDEA密码安全技术是当今最新一门加密解密技术。  [关键词] 信息安全 密码技术     一、背景  1990年XueJia Lai和Massey开发出IDEA加密算法雏形,称为PES,即“建议的加密标准”。第二年,根据有关专家对这—密码算法的分析结果,设计者对该算法进行了强化并称之为IPES,即“改进
期刊
[摘 要] 供应链事件管理(SCEM)提供了在供应链中实时与故障或破坏事件的相关信息,使物流企业能够对意外事件做出有效措施。将AGENT技术集成于物流企业供应链事件管理系统中,能有效的弥补供应链事件管理系统的缺陷,基于AGENT的供应链事件管理由于降低了干扰事件所带来的消极影响及有效的监控程序,给供应链上的企业带来很实际的效益。  [关键词] 供应链事件管理(SCEM) AGENT 供应链    
期刊
[摘 要] 随着互联网的发展,基于互联网的电子商务已经成为人们进行商务活动的一种模式,如何保证电子商务活动的安全性,一直是电子商务的核心研究领域。本文对电子商务安全的需求及PKI/PMI技术进行了探讨。   [关键词] PKI/PMI 电子商务安全     一、电子商务及其安全需求   随着信息技术和计算机网络的全面发展,基于互联网的电子商务也应运而生,并获得了巨大的发展。电子商务作为一种全新的商
期刊
[摘 要] 电子商务网站向用户提供及时有效的信息,是提高网站声誉和效益的基础。Web挖掘可以通过分析用户的使用偏好,帮助用户高效地检索到所关心的信息。本文深入讨论了Web结构挖掘、Web内容挖掘和Web使用挖掘等技术,并提出了商务网站基于Web挖掘技术为用户提供个性化推荐的一种框架。  [关键词] 电子商务 WEB挖掘 个性化服务    一、引言  电子商务站点的成功很大程度上取决于保持已有用户和
期刊
[摘 要] 作为物流的核心功能之一,仓储是社会物质生产的必要条件,是“第三利润”的重要源泉之一。正因如此,中国石化为合理配置系统内资源,降低区域内物流总成本,实现长期利益最大化,决定以中石化南京物资装备公司为基础建立一个存储型、区域性的备品配件分销配送中心。从经济角度出发,根据数学模型运算和主要影响因素的趋势分析,寻求符合配送中心利益的最佳扩大仓库面积的方式。   [关键词] 中石化 配送中心 仓
期刊