在不确定性数据中挖掘频繁项集的快速算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户：a570121851

【摘要】

：

近年来,由于不确定性数据的广泛应用,在不确定性数据中挖掘频繁项集的问题受到人们的极大关注。现有的不确定性数据中频繁项集的挖掘算法,大多是由确定性数据中频繁项集的挖

【作者】

：

文竹

【机构】

：

西安理工大学

【出处】

：

西安理工大学

【发表日期】

：

2017年期

【关键词】

：

不确定性数据 tubeS-growth 频繁项集树结构期望支持度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,由于不确定性数据的广泛应用,在不确定性数据中挖掘频繁项集的问题受到人们的极大关注。现有的不确定性数据中频繁项集的挖掘算法,大多是由确定性数据中频繁项集的挖掘算法改进而来。TubeS-growth算法是目前执行不确定性数据中挖掘频繁项集任务中较为常用的算法,该算法在压缩数据方面性能较好,但是对海量不确定性数据进行挖掘时,则存在以下弊端:①当项目的存在概率分散在不精确的(较宽泛的)范围之内时,该算法会生成数量过多的假性频繁项集;②当挖掘稀疏型数据集(项目总数较多而事务平均长度较短),或者稠密型数据集(项目总数较多而事务平均长度较长)时,该算法的运行时间过长》为了解决上述两个问题,本文采用“分而治之”的思想,对tubeS-growth算法改进后建立了 PtubeS-growth算法。改进后的算法利用数据库划分技术,当主内存不适配或数据量过大时,首先将不确定性数据库划分成若干个子数据库,通过分别对各子数据库构建树结构,然后挖掘各结构上的局部潜在频繁项集,再将它们合并成整体潜在频繁项集,最后,通过遍历数据库核查,从而排除假性频繁项集,保证挖掘结果的准确性。为了保证改进后算法的合理性,本文通过提出且证明相关定理,从而解决了算法设计过程中所存在的问题:①如何解决数据库划分后,最小支持度的设定合理性问题;②如何将各划分部分中分别挖掘到的局部潜在频繁项集合并成整体潜在频繁项集。为了确保改进后算法的高效性,本文通过采取剪枝、减少计算量等优化方法,从而解决数据库划分后分别挖掘、局部潜在频繁项集合并所造成的运行时间长等问题。通过实证研究表明,在同等的运行环境下,本文所构建的PtubeS-growth算法都更加高效,并且解决了tubeS-growth算法在同类型数据集挖掘过程中所存在的运行时间较长、假性频繁项集较多的问题。

其他文献

一些浅水波方程强解爆破的形态

本文考虑Degasperis-Procesi方程和Camassa-Holm方程的强解在有限时间爆破时的形态，我们发现，若它们的强解的高阶导数在平方可积的意义下爆破，则该高阶导数的L2-范数爆破得很快．

学位

浅水波方程强解爆破形态能量估计

几类分数阶差分方程边值问题解的存在性和唯一性

本文主要考虑了两类分数阶差分方程的边值问题，应用不动点定理及压缩映射原理分别得到了两类问题的解的存在性和唯一性的一些充分条件．　　第一章,主要介绍了相应的历史背景、

学位

分数阶差分方程边值解存在性唯一性

Loewner微分方程和一些自相似测度的柯西变换

本文主要由五章构成.在本文的前半部分，我们研究了上半平面Loewner微分方程一些性质.在本文的后半部分，我们研究某些自相似测度的柯西变换的Taylor系数以及复平面上的全纯逆紧

学位

Loewner微分方程驱动函数上半平面容量柯西变换吸引子自相似测度全纯逆紧映射

带负顾客的几种排队模型

带有“休假”性质的排队模型是排队论学科中学者专家研究较多的实用模型。这种模型将系统中的服务员的服务状态设定为两种方式，一种是以高速度的速率为顾客服务，另一种是以相对

学位

带负顾客排队模型理论体系稳态分布

分数布朗动物的统计推断及在金融上的应用

特殊的高斯过程地—分数布朗运动已经被广泛运用于金融、水文、通信等诸多领域，无数的学者对分数布朗运动的研究产生了深厚的兴趣，也获得了很多突破性的成果。本学位论文主要探

学位

金融市场分数布朗运动统计推断风险波动率Hurst指数

分数阶Volterra积分方程解的存在性、唯一性和整体吸引性的研究

在本文中，我们通过使用不动点定理和一种新的方法讨论了如下的分数阶Volterra积分方程(公式略)，其中1＞α＞0，f∈C(R+×R，R)，u∈CR+×R+×R，R)，并且p∈C(R+)：=C(R+，R)是一个有界函数。并且

学位

分数阶Volterra积分方程数值解存在性整体吸引性唯一性不动点定理

环境背景管理在场地环境评价中的应用

摘要：本文结合国家“十二五”科技支撑“典型工业污染场地分类管理、风险评估与土壤修复技术筛选研究”等课题研究内容，以我国重点地区污染场地调查为基础，结合我国污染场地类型与污染物特点，研究并构建了场地信息、污染物筛选、风险评估和修复技术等多环节、多要素的场地环境管理支撑体系，在污染场地分类、污染源识别、污染场地调查与环境风险评价、修复技术规定等方面取得重要研究进展。文章主要介绍场地环境评价在中国的现

期刊

环境背景场地环境环境评价

云存储环境下的可搜索加密研究

云计算作为一种新的计算模式，汇聚着大量的可扩展的计算资源，通过因特网向用户提供这些计算资源的服务，正逐步改变着我们的日常生活及企业的信息技术策略。云存储服务作为云计算

学位

云计算云存储服务可搜索加密数据机密性

混凝气浮+微生物技术处理含聚污水应用效果

摘要：使用与水中HPAM反应效率高、反应较完全的无机净水剂聚合物氯化铝（PAC）[1]和阳离子絮凝剂对含聚污水预处理，预处理后的污水再经过微生物处理工艺，处理后的污水含油为5.5mg/L，悬浮物为9.3mg/L，聚合物为92.3mg/L。　　关键词：含聚污水阳离子聚合物微生物　　前言　　近年来，聚合物驱油已在油田得到广泛应用，相应产生了大量的含聚污水。含聚污水中不仅含有大量的油和悬浮物，还含

期刊

含聚污水阳离子聚合物微生物

黄柏苷化感作用研究

对黄檗落叶中新化感物质黄柏苷在黄檗及近缘种黄皮树种子萌发及生长过程中的化感作用进行研究,以期解读黄檗野生种群中幼苗稀少的成因。从黄檗落叶中提取分离黄柏苷,用不同浓

期刊

苷化黄皮树化感作用野生种群抑制作用近缘种化感物质Phellodendron萌发时间伞形花内酯

在不确定性数据中挖掘频繁项集的快速算法研究

其他学术论文