【摘 要】
:
数据挖掘是从大量数据库中挖掘出潜在的有效知识,从而达到预测未来趋势的目的,是知识发现过程中不可缺少的一部分。其数据形式具有多样性,其中有一类数据表现为序列形式,即序
论文部分内容阅读
数据挖掘是从大量数据库中挖掘出潜在的有效知识,从而达到预测未来趋势的目的,是知识发现过程中不可缺少的一部分。其数据形式具有多样性,其中有一类数据表现为序列形式,即序列模式。序列模式挖掘是针对序列数据挖掘的研究,从序列数据库中挖掘频繁出现的序列。本文针对现有序列模式挖掘算法的不足给出相应的改进算法。主要研究工作如下: 1)分析比较传统序列模式挖掘和闭合序列模式挖掘算法,给出几种经典算法的详细描述。重点研究类Apriori算法和类FP-growth算法的思想模型,阐述两类算法的特点,分析其不足,为SuffixJoin和ssCloSpan两种算法的提出奠定基础。 2)针对PrefixSpan算法中反复扫描投影数据库影响效率的问题,给出SuffixJoin算法。该算法仅扫描投影数据库一遍,建立基于投影后缀频繁项的候选数据库,此后直接将当前的频繁序列与候选数据库中对应后缀相连接,从而实现序列模式的增长,达到优化效率的目的。实验表明,在处理较长的序列模式时,该算法在性能上具有优势。 3)在闭合序列模式挖掘中,针对CloSpan算法在第二阶段删除非闭合序列模式中时间消耗较大、影响效率的问题,提出改进的ssCloSpan算法。该算法改进前缀搜索树结构,通过支持度剪枝、末节点哈希表以及频繁项头表的剪枝策略,在挖掘频繁序列的同时确定闭合序列,有效提高闭合序列模式挖掘的效率。实验表明,该算法在处理较长的序列模式时,执行效率上有明显的提高。
其他文献
减摇鳍加载系统是模拟减摇鳍运动时所受负载的装置,是为减摇鳍的研制开发工作服务的。它的功能是模拟减摇鳍鳍片在不同角度时所受到的水流的作用力,并把此力实时的施加于鳍片,从
该文以唐山恒通精密薄板有限公司1270mm冷带轧机技术改造项目为背景,针对该轧机液压厚度自动控制系统进行了深入研究.在参考原设计思想基础上,提出了液压厚度自动控制的总体
穿戴假肢是下肢截肢者恢复日常生活的唯一途径,只有快速准确地识别残疾人的运动意图,才能实现对假肢的灵活控制。肌电信号能体现人体的运动意图,而且产生于人体真正运动之前,
薄带坯高速铸轧机属于第四代铸轧机,这种铸轧机生产的薄带坯的冶金组织比常规带坯好,力学性能也更高,而且可提高成品的表面质量。国家计委将该项目列为“九五”科技攻关项目,与铸
该论文以德国进口的烟机设备西门子PROTOS SRM90作为改造对象,全面阐述了新SRM系统的设计目标、设计方案和设计实现. 该论文共分五章:第一章为绪论,主要介绍了该系统的开发背
在无线传感器网络的诸多应用中,节点位置信息具有重要的作用,如地理路由协议的建立,目标跟踪和环境监测等。给每个节点配置GPS来获取自身的位置信息会大大增加整个网络的成本
等离子体射流的研究是等离子体点火,等离子体喷涂与熔射和材料处理的重要组成部分。对等离子体射流的特性研究有助于优化各种运用参数,达到工业运用的最佳效果,由于等离子体
中药是中国的国粹。天然产物是中药、保健品、食品的重要来源,天然产物在中医理论指导下使用时即是中药。我国的中药资源十分丰富,具有广阔的产业化前景。然而,中药还未被国
船舶减摇水舱试验台架是一专用综合系统,利用试验台架来模拟船在海浪中的摇摆,从而通过台架试验为减摇水舱的设计提供依据,为实船装备减摇水舱提供试验数据。现阶段的减摇水舱实
随着多核计算机的普及,并行计算技术已经广泛用于计算机科学的多个领域,其中以线程级并行计算最受关注。然而在图形领域,并行计算技术尚未得到有效的应用,多线程技术在基于3D