一种面向电子商务的Web数据挖掘模型

来源 :软件工程师 | 被引量 : 0次 | 上传用户:linkageldap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文在介绍了Web数据挖掘、Agent技术的概念和特点的基础上,提出了一种面向电子商务的多AgentWeb数据挖掘模型。利用这种模型可以把任务由大化小,由复杂变简单,简化了问题的复杂性。
  关键词:Web;数据挖掘;电子商务;Agent
  
  1引言
  随着Internet及Web技术的快速发展,各类电子商务网站风起云涌。 在竞争日益激烈的电子商务市场中,只有赢得用户才能最终赢得竞争的优势。一个网站每天需要搜集和处理大量的数据,如何将这些繁琐的数据转换为有价值的信息和知识是我们面临的问题。利用数据挖掘技术可以有效地帮助网站经营者分析网上获取的数据,提取出有效信息,进而调整营销策略,给客户提供个性化的高效率服务。Web数据挖掘正是使用Web技术,从网站数据库中发现知识的过程。
  2 Web数据挖掘
  2.1 Web数据挖掘概念
  Web数据挖掘是是从数据挖掘发展过来的集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项技术。Web数据挖掘可从大量的Web文档及Web服务中自动发现蕴涵的、未知的、有潜在应用价值的、非平凡的信息。它所处理的对象包括:静态网页、Web数据库、Web结构、用户使用记录等信息。通过对这些信息的挖掘,可以得到仅通过文字检索所不能得到的信息。
  基于Web的数据挖掘和传统的基于数据仓库的数据挖掘有着不同的含义。Web挖掘的研究对象是以半结构化和非结构文档为中心的Web,这些数据没有统一的模式,数据的内容和表示互相交织,数据内容基本上没有语义信息进行描述,仅仅依靠HTML语法对数据进行结构上的描述。为了对这种半结构化数据进行分析和处理,Web挖掘必须和其研究手段结合起来。由于涉及到很多的知识领域,Web挖掘现在是多个研究方向的交汇点,包括数据库、信息获取、人工智能、机器学习、模式识别、统计学、自然语言处理等。
  2.2 Web数据挖掘的类型
  电子商务网站中Web信息的多样性决定了挖掘任务的多样性。按照Web数据类型的不同,Web数据挖掘可以分为三种类型:Web内容挖掘、Web结构挖掘以及Web使用模式挖掘,如图1。
  
  
  (1)Web内容挖掘。Web内容挖掘是自动地从数以万计的Web站点和在线数据库中搜索和获取信息和资料的过程,从Web文档的内容信息中挖掘出隐藏在网络数据或文档中的知识内容知识。网络信息资源类型众多,从网络资源的形式来看,包括文本、图像、音频、视频等形式的数据,因此Web内容挖掘可又可将其分为基于文本的挖掘和基于多媒休的挖掘。目前Web文本挖掘已经有了比较实用的功能。
  (2)Web结构挖掘。整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的结构之中。Web结构挖掘就是挖掘Web潜在的链接结构模式,是对Web页面超链接关系、文档内部结构、文档URL中的目录途径结构的挖掘,所以Web结构挖掘又可将其分为超链接挖掘、内部挖掘和URL挖掘。
  (3)Web使用模式挖掘。Web使用模式挖掘(又称为日志挖掘),是对用户访问Web服务器时留下的访问记录进行挖掘,从中得出用户的访问和访问兴趣的过程,主要用来了解用户的网络行为数据所具有的意义,是对现代电子商务战略的一个重要支持,它通常可分为:一般访问模式挖掘和个性化服务模式挖掘。
  Web访问日志,是登录某个Web站点的用户经过一系列的站点浏览后,系统自动记录的用户浏览行为数据,诸如用户的IP、用户的访问时间、浏览过页面的URIJ、请求方法、请求的字节数、客户端的操作系统和浏览器版本号等。通过对Web站点上用户访问日志文件中的数据的挖掘,可以了解登录Web站点的大多数用户经常采用的浏览模式、浏览路径,从而改进站点的设计。
  
  3 电子商务中的Web数据挖掘
  3.1 电子商务中的Web挖掘算法
  面向电子商务的Web数据挖掘主要包括Web内容挖掘和Web日志挖掘。利用Web内容挖掘,可进行电子商务海量商品信息采集;利用Web日志挖掘,可有效地对Web日志进行定量分析,辅助商家理解用户的行为,从而改进站点结构,调整销售策略,提供个性化服务。
  在电子商务中常用的挖掘算法有:关联规则、序列模式、聚类、分类等。关联分析用于了解顾客的购物习惯和偏好,决定市场商品的摆放和产品的捆绑销售策略;序列模式是用某时间点发现的产品购买或行为模式来预测将来顾客购买产品的概率;聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针对性的营销策略;分类用于预测哪些人会对邮寄广告、赠卷促销手段有反应,还可用于顾客类别划分等。
  3.2 基于多Agent的Web数据挖掘模型
  传统的Web数据挖掘需要人们的大量参与,一次需要处理大量数据,并且可能因为低准确性而造成多次重复操作,大大降低了它的智能性和高效性,浪费了用户的时间和精力。随着Agent技术的出现和研究,人们尝试着将其应用到Web数据挖掘中来。Agent能实现自我控制状态和行为,能在无人或其他程序介入时操作和运行。
  基于多Agent的Web挖掘模型其基本原理是把web挖掘任务分配给多个Agent来共同完成。每个Agent都有自己的目标,有独立完成任务的能力,也可以和用户等外部环境进行交互。同时各个Agent之间相互学习和帮助,通过交互和协调增强web挖掘的能力。
  模型主要由客户Agent、适配器、协同Agent、数据挖掘Agent、全局知识库、知识库和原型库、用户信息库构成,如图2。
  
  
  (1)客户Agent。客户Agent是用户和计算机进行人机对话的接口。在用户初迸系统时,客户Agent接收用户的注册与查询请求,并对用户的请求进行编码,分析和判断,主动帮助用户细化查询要求,把任务的详细分析交给管理Agent。
  (2)适配器。适配器用来初始化Agent,实现Agent之间的通信。一方面,它把从协同Agent传来的各移动Agent挖掘的结果进行组合、装配形成规则,存入全局知识库和提交给客户Agent,另一方面它又扮演通信员的角色,负责用户接口Agent同移动Agent系统的任务传达。
  (3)协同Agent。协同Agent用来初始化和管理Agent,它连接客户Agent和挖掘Agent,一方面负责把客户Agent下达的任务分解,分配到各个挖掘Agent,负责它们之间的交流和协作,另一方面负责完成本子系统发现的规则的装配井传递给客户Agent。
  (4)数据挖掘Agent。它是数据模型的封装体,封装了具体的算法及其数据和执行动态。数据挖掘Agent的主要功能包括学习挖掘规则和数据挖掘。学习Agent的任务是发现用户访问模式和感兴趣的主题,为用户生成用户必趣模型。数据挖掘Agent执行所分配的任务或子任务,是由若干个挖掘算法Agent组成的,每个挖掘算法Agent都有固定的特性,根据这些特性可以完成不同的任务。当一个Agent无法完成所分配的任务时,就需要和其他的挖掘算法Agent进行通信,请求其他的挖掘算法Agent来帮助完成任务。
  (5)全局知识库。挖掘的结果除了提交给用户之外还要存储到全局知识库,这样便于日后的查询和比较分析。
  (6)原型库和知识库。它们是为了存储一些领域知识和规则,以及数据挖掘所需要的一些原型,并且随着不断的应用,可以利用全局知识库的模型对其进行更新和编辑,增强其智能性和可靠性。
  工作流程是:首先由用户输入要求,客户Agent对其进行智能性分析,然后经适配器传达到协同Agent,协同Agent动态地创建移动Agent,并把它们派到各电子商务站点DB中,执行挖掘任务,再返回各站点挖掘的规则。这些规则经适配器的组装,形成知识,一方面存入全局知识库,另一方面提交给用户,结束本次挖掘任务。
  
  4 结束语
  本文介绍的基于多Agent的Web挖掘模型,采用了当前数据挖掘、人工智能等方面的最新思想和技术。每个Agent都有自己的日标、功能和行为,可以自主运行,同时Agent之间通过协调和合作共同准确且高效地完成任务。利用这种模型可以把任务由大化小,由复杂变简单。可以有效地帮助经营者分析网上获取的数据,提取出有效信息,进而调整营销策略,给客户提供个性化的高效率服务。随着Agent不断融入到电子商务中,电子商务的前景会更加广阔更加美好。
  
  参考文献
  [1]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.
  [2]刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
  [3]程筱胜,廖文和,田宏,等.面向电子商务的Web挖掘系统模型研究与应用[J].南京航空航天大学学报,2004(3):322-326.
  [4]周丽莉,李耀辉,董颢霞.基于Web的数据挖掘在电子商务中的应用[J].微计算机信息,2006(21):162-163.
  [5]阎建红.企业智能化Web商务数据挖掘引擎算法设计与实现[J].计算机工程与设计,2007(4):926-928.
  [6]刘业政,李亚飞,杨善林.电子商务环境下基于Agent的Web数据挖掘[J].计算机工程,2004(20):107-108.
其他文献
多维空间画法几何在现代科学中有着重要的应用;在数学领域中也同样具有广泛的应用。本文首先介绍由三维空间扩展至多维空间的画法几何,而后引述其在复变函数中如何全面地、直
早在1月初发表的拙作中,我对始自去年11月反弹的阶段性顶部在时间上曾作了这样大致上的预测:“1月收阳线,2月冲高并见顶回落”。 事实上,2月23日,上证综指见1730点、深证综指
年初,我在《2004年:赚取无风险利润》一文中提出2004年投资方向:集装箱港口、电力和轿车行业。接着又在《市场波动影响投资判断》中解释投资取向的原因之一,是兼顾市场走势。
股改即将全面铺开,新一批股改公司很可能在下周初亮相。市场反复震荡,诡秘难测。股改全面铺开在即,市场的猜测也多了起来。由于市场普遍认为股改试点是"靓女先嫁",那么随后的
随着自上而下的行业价值发现型行情(以“原5朵金花”为代表)效率递减,加之年初以来入市资金结构的多元化,未来行情将有望转入自下而上的价值成长型炒作,其中“个股的精细化运
对多方过程,当V增大或减少时,要么全部Q=0,要么全部过程吸热或放热.而对非多方过程,热容量是变量,其吸、放热比较复杂.
股市和自然现象均具有相同之数学基础,做股票技术分析就是要重点分析时空量价变化规律。常会运用到费波纳奇数列1、3、5、8、13、21、34、55、89、144;此外,17、30、45、90、
本文给出了一类特殊Mendelsohn三元系存在的充要条件。
荒草坡群是东准噶尔地区最古老的地层,其时代归属问题一直悬而未决.本文通过两个剖面分析,对荒草坡群的时代归属问题提出了一些新认识,并在此基础上,对荒草坡群进行了重新划分.
本周,沪深大盘指数连连重挫,市场众望所归的半年线不堪一击。上证指数周、日线中继平台向下破位,符合上星期前导系统关于反弹震荡平台可能中途失落的预测;深证成指和上证50指