Web挖掘及其在电子商务中的应用

来源 :商场现代化 | 被引量 : 0次 | 上传用户:asdfghjkb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 电子商务网站向用户提供及时有效的信息,是提高网站声誉和效益的基础。Web挖掘可以通过分析用户的使用偏好,帮助用户高效地检索到所关心的信息。本文深入讨论了Web结构挖掘、Web内容挖掘和Web使用挖掘等技术,并提出了商务网站基于Web挖掘技术为用户提供个性化推荐的一种框架。
  [关键词] 电子商务 WEB挖掘 个性化服务
  
  一、引言
  电子商务站点的成功很大程度上取决于保持已有用户和将随意浏览者转化为现实购买者的能力。因此,怎样在电子商务环境中吸引新用户,并确保自己可以提供足够的产品或服务留住老用户,成为许多电子商务站点所要关注的主要问题。另一方面,用户面对电子商务站点所提供的众多选择,要从中挑选出自己真正需要的产品或服务犹如大海捞针。
  人们为了实现从海量Web数据中,查找自己想要的数据和有用信息,提出了Web挖掘(Web Mining)。Web挖掘可以帮助人们从Web文档和Web活动中发现和抽取潜在的、有意义的模式和知识。它将传统的数据挖掘技术与Web结合起来,并综合运用了统计学、计算机网络、数据库与数据仓库、可视化等众多领域的技术,形成了Web结构挖掘、Web内容挖掘和Web使用挖掘的研究与应用体系。
  二、 Web结构挖掘
  由于Web页面具有比纯文本更为丰富的结构,不仅具有文本信息,而且具有表示页面之间关系的链接,所以Web结构挖掘主要是利用Web文档之间的超链结构进行分析。大量的Web超链接信息提供了关于Web页面内容相关性、质量和结构方面的信息,反映了文档之间的包含、引用或者从属关系。引用文档对被引用文档的说明往往更客观、更概括、更准确。它有助于推断出页面的权威性。所谓权威页面是在一个主题内被高度引用或参考的页面,与其相关的另一个概念是枢纽页面,即:那些指向许多权威页面的页面。权威页面和枢纽页面展示了强烈的互增强关系;一个好的枢纽页面指向了许多好的权威页面;一个好的权威页面被许多好的枢纽页面所指。在信息检索中往往将高权威分和枢纽分的页面视为高质量的页面,可以考虑优先提供给用户。
  三、Web内容挖掘
  Web内容挖掘主要有两种策略:1.直接挖掘Web文档的内容;2.在工具搜索的基础上进行改进。采用第一种策略的有针对Web查询语言利用启发式规则的Ahoy等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。共分为四个阶段:
  首先,对文本挖掘对象建立特征表示。为Web文本内容建立特征表示是Web文本挖掘中的基本问题,常用的特征表示方法有:向量空间模型、布尔模型、聚类模型、概率模型和基于知识模型等。
  其次,提取文档特征并缩减。在目前所采用的文档表示方法中,共同存在的瓶颈就是文档特征向量维数过高。常用的特征提取与缩减方法有:信息增益、互信息、文本证据权、特征频度、文本频度,以及特征熵等。
  再次,在完成文档特征向量维数的缩减后,利用数据挖掘的方法(如分类、聚类、关联规则等)提取面向特定应用的知识模式。
  最后,对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到之前的某个环节,分析改进后再进行新一轮的挖掘工作。
  四、 Web使用挖掘
  Web使用挖掘的结果通常是用户群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯和模式等,已经成为当前电子商务个性化推荐的主流方法。Web使用挖掘主要通过分析用户访问Web的记录了解用户的兴趣和习惯,对用户行为进行预测,以便提供个性化的产品信息和服务。Web使用挖掘的方法可以分为两类:
  1.基于Web事务的方法
  基于Web事务的Web使用挖掘技术通常应用于Web服务器日志文件,引入最大向前引用算法MF,将用户会话分割成一系列的事务,然后采用与关联规则相类似的方法挖掘频繁访问序列,从而取得用户访问模式。Web使用数据的采集和预处理是Web使用挖掘过程中非常关键的步骤。
  2.基于数据立方体的方法
  基于数据立方体的技术是根据Web服务器日志文件,建立数据立方体,然后对数据立方体进行数据挖掘和联机分析处理。这种方法从多角度、全面地进行挖掘和分析,有利于Web挖掘与数据挖掘技术的迅速融合与发展。
  五、语义Web挖掘
  语义Web模型的一个重要思想就是以本体来表示语义信息,通过在语义Web中引入本体层来实现语义信息的共享,从而提高网络信息服务的智能化与自动化。语义Web挖掘的主要分为两個层次:其一,探索能够直接处理Web本体的Web挖掘算法;其二,在Web挖掘其他环节利用本体方法,以提高Web挖掘的效能。
  要解决现有数据挖掘技术在语义Web环境下应用,关键的问题是要求数据挖掘算法具有几种能力:第一是使用的算法应该具有处理比命题逻辑更有表达力的一阶逻辑的能力;第二是在算法中具有利用背景知识数据进行数据挖掘。
  六、结论
  电子商务个性化推荐可以根据用户的偏好、历史访问数据,以及相似用户的相关信息,帮助用户完成网上浏览、购买等过程,为用户提供个性化服务。WEB挖掘技术可以从不同的角度和层次对网站信息和用户的使用偏好进行分析,正在成为提高电子商务网站声誉和效益的有效途径之一。
  参考文献:
  [1]石 琳 王刊良:网上购物与网上学习中的个人化推荐系统的比较.清华大学学报(自然科学版),2006,46(S1)
  [2]陈文伟 黄金才:数据仓库与数据挖掘.北京:人民邮电出版社,2004
其他文献
[摘 要] 农村信用社(简称农信社)是农村金融工作的主力军,它对推动新农村建设起着积极的作用。但近年来,农村金融市场竞争激烈,运行效率的高低已成为关乎农信社生死存亡的大问题。本文根据农信社多投入、多产出的特点,运用数据包络分析法(DEA)对2007年度陕西省某地区农信社运行效率进行了测算并对非有效的农信社的有效性进行了改进,测算结果表明规模不经济是该地区农信社运行效率低下的普遍原因,提出了提升农信
期刊
[摘 要] 本文主要通过考察我国近期CPI的变动趋势,从单因素及多因素对CPI的影响入手,分别回归出CPI与食品,以及其他各类影响因素的线性模型,并进行相关检验,从而得出CPI持续上涨的驱动因素。  [关键词] 通货膨胀 CPI 回归分析    一、我国CPI的变动趋势(2006年11月~2008年4月)  我国经济在保持持续快速增长的同时,于2005年已初步显现经济过热的迹象,表现在:占居民消费
期刊
[摘 要] 选址在零售企业经营活动中属于投资性决策范畴,其重要性远远高于一般的经营性决策。本文介绍了基于GIS的零售商业网点选址的特点,分析了基于GIS的零售商业网点选址的影响因素,阐述了商圈划分模型和人口一致性模型,并利用缓冲区、人口密度、市场饱和度,分析基于GIS的零售商业网点选址的具体过程。  [关键词] 零售商业网点 GIS 选址    一、概述  零售商业网点是指那些把商品和劳务出售给最
期刊
[摘 要] RSS作为xml数据源应用的一种方式,已经得到越来越广泛的应用,但随着RSS信息量的不断增大,RSS应用需要一种有效的数据处理方案拓展其应用面,本文根据xquery规范,使用Qexo模型,实现一种对RSS数据查询的方法。  [关键词] Xquery XML Qexo     一、前言  RSS起源于Netscape的MY Netscrpe项目,他是资源描述框架(Resource Des
期刊
[摘 要] 当前我国城市居民的消费生活方式发生了巨大变化,通过对朋友聚餐的分析探讨影响居民消费生活方式的个人属性因素。   [关键词] 消费方式 朋友聚餐    一、问题与假设  在近20年的时间里,中国经历了社会转型的巨变,城市居民的生活方式也发生了很大变化。本文是以朋友聚餐为例,探讨我国城市居民消费生活方式的变迁及其影响因素。  1949年建国后,新中国围绕着将“消费城市转变为生产城市”的工业
期刊
[摘 要] KMV模型是一种国外普遍应用的信用风险度量模型,本文分析了该模型的基本思想和基本构成,并探讨了模型在我国的适应性。  [关键词] KMV模型 信用风险 违约    企业信用风险一直以来都是各经济主体面临的最重要金融风险,其测度、规避、防范和控制不仅是商业银行,也是投资者、供应商、服务商等面临的重大问题。本文以KMV模型为例,来探讨该模型对我国上市公司信用风险度量的适用性。  一、模型基
期刊
[摘 要] 本文从Martin和Rose的评价理论的角度对叙述式广告语篇翻译做了分析,发现英语叙述式广告语篇的汉语翻译的级差手段多于原文。  [关键词] 评价理论 叙述式广告语篇 语篇翻译    一、引言  翻译不仅是一项语言文化活动,还是语言的具體化,属言语范畴。由各种具体语言和非语言因素组合而成的语篇翻译活动,构成跨文化交际的一个重要方面。在翻译界,有多种翻译方法、翻译策略及翻译理论,如莱斯、
期刊
[摘 要] 随着电子商务的发展,计算机信息的保密问题显得越来越重要,信息安全的核心是密码技术,IDEA密码安全技术是当今最新一门加密解密技术。  [关键词] 信息安全 密码技术     一、背景  1990年XueJia Lai和Massey开发出IDEA加密算法雏形,称为PES,即“建议的加密标准”。第二年,根据有关专家对这—密码算法的分析结果,设计者对该算法进行了强化并称之为IPES,即“改进
期刊
[摘 要] 供应链事件管理(SCEM)提供了在供应链中实时与故障或破坏事件的相关信息,使物流企业能够对意外事件做出有效措施。将AGENT技术集成于物流企业供应链事件管理系统中,能有效的弥补供应链事件管理系统的缺陷,基于AGENT的供应链事件管理由于降低了干扰事件所带来的消极影响及有效的监控程序,给供应链上的企业带来很实际的效益。  [关键词] 供应链事件管理(SCEM) AGENT 供应链    
期刊
[摘 要] 随着互联网的发展,基于互联网的电子商务已经成为人们进行商务活动的一种模式,如何保证电子商务活动的安全性,一直是电子商务的核心研究领域。本文对电子商务安全的需求及PKI/PMI技术进行了探讨。   [关键词] PKI/PMI 电子商务安全     一、电子商务及其安全需求   随着信息技术和计算机网络的全面发展,基于互联网的电子商务也应运而生,并获得了巨大的发展。电子商务作为一种全新的商
期刊