电子商务中交易数据库的二次聚类算法

来源 :第十九届全国数据库学术会议 | 被引量 : 0次 | 上传用户:liwenwu042
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务运行过程中,每天的业务都会产生大量数据,这些信息被Web服务器自动收集并经过处理转换为交易数据库,从交易数据库中可以通过不同的数据挖掘方法发现知识,聚类分析就是其中之一.现有的聚类算法大多用于数值型数据,很少涉及交易数据的聚类.由于交易数据库通常包含数百甚至数千的数据项,将交易数据库转换为高维数据库,会导致问题,使得大多数聚类算法不能适用. 本文研究大规模交易数据库中的聚类问题,提出了一种二次聚类算法一CATD,对交易进行聚类,从中发现相似的购买模式。本文第2节详细地描述了二次聚类算法CATD的过程,然后给出了算法的复杂性分析,最后总结全文。
其他文献
网络上信息量的剧增,给网站的管理和用户的浏览带来一系列的难题.Web个性化技术,即Web站点根据用户的需求为其提供一对一的服务的技术,正是针对这些难题的解决应运而生的.目
会议
神经网络和遗传算法的结合是当前智能技术研究的重要内容,也是计算智能CI技术的重要组成部分。本文在分析BP算法和遗传算法机理之后,提出了一种遗传BP神经网络数据挖掘技术。由
关联规则是由Agrawal等人首先提出的一个重要的KDD研究课题,它反映了大量数据中项目集之间有趣的关联或相关联系.发现频繁项目集是关联规则挖掘应用中的关键技术和步骤.近年
会议
Internet的迅速发展,使其成为全球信息传递和共享的最重要资源,如何利用Internet上的大量信息成为亟待解决的问题.由于Internet上的数据多以半结构或无结构的形式出现,因此传
会议
目前,在数据仓库的数据清洗过程中,数据的不完全问题,并不受重视。现有的处理方法之一是直接去掉带缺失项的记录,这一方法虽然筒单,也使我们失去了许多有用的信息,甚至会使基于该数
会议
本文提出的算法EBNC一次处理整个数据集合的样本,因而速度比较快。这个算法基于Shannon信息理论,对于处理离散取值的属性有较高的准确性,同时保留了在引言中所述的Bayes网络的两
数据挖掘的优势在于它能从大量数据中提取人们感兴趣的、事先朱知的知识和规律。因此,基于数据挖掘的异常入侵检测方法可以不依赖于经验而检测出未知的攻击。但是,建立异常检测
会议
在国际金融外汇市场上,各个国家的金融机构或个人投资者通过对各国货币的买卖行为来获取投资利益.为了控制风险,交易员(或客户)要随时了解各种货币的汇率及其变化趋势的实时
会议
本文试图探索分类器在分类随时间推进的过程中面临的演变需求,该需求是外界的扰动对训练观念的改变弓陷的。本文从以下两方面进行了介绍:1.训练数据的属性特征选取需要变化。2.
数据挖掘是从数据中识别出有效的、新颖的、具有潜在效用的以及最终可理解的模式的高级过程.目前关于数据挖掘的研究很多,但大多数只着眼于挖掘算法,对于整个挖掘过程的研究
会议