字典编码在邻近序列模式增量挖掘中的应用

来源 :2007中国计算机大会 | 被引量 : 0次 | 上传用户:ninebirds88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
邻近序列模式挖掘是Web使用挖掘中的重要任务之一。针对如何从Web日志中增量挖掘出邻近序列模式,我们提出了DCSP-mine算法。本文根据邻近序列模式的特点,将字典编码用到其增量挖掘中。对原始数据库中的邻近序列模式和弱模式进行字典编码,当数据库更新时,只需扫描新增数据库,将扫描得到的模式添加入字典中统计其支持计数,就可以得到邻近序列模式。理论分析和实验表明本文提出的算法具有较好的算法时间效率。
其他文献
挖掘频繁元素是数据流研究领域的一个重要问题。由于数据流具有高速流动、规模无限等特点,因此在数据流上挖掘频繁元素很具挑战性,主要有:动态的维护概要数据结构;使用远小于数
会议
从股票数据分析的实际应用出发,分析了经典Apriori算法的不足,主要从主观有效角度,考虑股票分析用户对规则的使用率,深入研究推导证明有意义的定理,提出了新的规则定义,在新的规则
会议
当前逐渐出现的大规模(TB甚至PB级)的数据库系统中,其庞大的数据规模,往往造成查询性能低下。针对这一现状,介绍了一种面向海量数据的多维度数据划分的查询优化方法,该方法将存放
会议
在文本挖掘预处理过程中,文本去重能够消除大量重复丈本,从而减少数据挖掘过程中数据的处理规模。针对短文本数据的海量性和简短性,本文提出了基于关联规则和特征码的快速去重方