【摘 要】
:
近年来,由于不确定性数据的广泛应用,在不确定性数据中挖掘频繁项集的问题受到人们的极大关注。现有的不确定性数据中频繁项集的挖掘算法,大多是由确定性数据中频繁项集的挖
论文部分内容阅读
近年来,由于不确定性数据的广泛应用,在不确定性数据中挖掘频繁项集的问题受到人们的极大关注。现有的不确定性数据中频繁项集的挖掘算法,大多是由确定性数据中频繁项集的挖掘算法改进而来。TubeS-growth算法是目前执行不确定性数据中挖掘频繁项集任务中较为常用的算法,该算法在压缩数据方面性能较好,但是对海量不确定性数据进行挖掘时,则存在以下弊端:①当项目的存在概率分散在不精确的(较宽泛的)范围之内时,该算法会生成数量过多的假性频繁项集;②当挖掘稀疏型数据集(项目总数较多而事务平均长度较短),或者稠密型数据集(项目总数较多而事务平均长度较长)时,该算法的运行时间过长》为了解决上述两个问题,本文采用“分而治之”的思想,对tubeS-growth算法改进后建立了 PtubeS-growth算法。改进后的算法利用数据库划分技术,当主内存不适配或数据量过大时,首先将不确定性数据库划分成若干个子数据库,通过分别对各子数据库构建树结构,然后挖掘各结构上的局部潜在频繁项集,再将它们合并成整体潜在频繁项集,最后,通过遍历数据库核查,从而排除假性频繁项集,保证挖掘结果的准确性。为了保证改进后算法的合理性,本文通过提出且证明相关定理,从而解决了算法设计过程中所存在的问题:①如何解决数据库划分后,最小支持度的设定合理性问题;②如何将各划分部分中分别挖掘到的局部潜在频繁项集合并成整体潜在频繁项集。为了确保改进后算法的高效性,本文通过采取剪枝、减少计算量等优化方法,从而解决数据库划分后分别挖掘、局部潜在频繁项集合并所造成的运行时间长等问题。通过实证研究表明,在同等的运行环境下,本文所构建的PtubeS-growth算法都更加高效,并且解决了tubeS-growth算法在同类型数据集挖掘过程中所存在的运行时间较长、假性频繁项集较多的问题。
其他文献
本文考虑Degasperis-Procesi方程和Camassa-Holm方程的强解在有限时间爆破时的形态,我们发现,若它们的强解的高阶导数在平方可积的意义下爆破,则该高阶导数的L2-范数爆破得很快.
本文主要考虑了两类分数阶差分方程的边值问题,应用不动点定理及压缩映射原理分别得到了两类问题的解的存在性和唯一性的一些充分条件. 第一章,主要介绍了相应的历史背景、
本文主要由五章构成.在本文的前半部分,我们研究了上半平面Loewner微分方程一些性质.在本文的后半部分,我们研究某些自相似测度的柯西变换的Taylor系数以及复平面上的全纯逆紧
带有“休假”性质的排队模型是排队论学科中学者专家研究较多的实用模型。这种模型将系统中的服务员的服务状态设定为两种方式,一种是以高速度的速率为顾客服务,另一种是以相对
特殊的高斯过程地—分数布朗运动已经被广泛运用于金融、水文、通信等诸多领域,无数的学者对分数布朗运动的研究产生了深厚的兴趣,也获得了很多突破性的成果。本学位论文主要探
在本文中,我们通过使用不动点定理和一种新的方法讨论了如下的分数阶Volterra积分方程(公式略),其中1>α>0,f∈C(R+×R,R),u∈CR+×R+×R,R),并且p∈C(R+):=C(R+,R)是一个有界函数。并且
摘 要:本文结合国家“十二五”科技支撑“典型工业污染场地分类管理、风险评估与土壤修复技术筛选研究”等课题研究内容,以我国重点地区污染场地调查为基础,结合我国污染场地类型与污染物特点,研究并构建了场地信息、污染物筛选、风险评估和修复技术等多环节、多要素的场地环境管理支撑体系,在污染场地分类、污染源识别、污染场地调查与环境风险评价、修复技术规定等方面取得重要研究进展。文章主要介绍场地环境评价在中国的现
云计算作为一种新的计算模式,汇聚着大量的可扩展的计算资源,通过因特网向用户提供这些计算资源的服务,正逐步改变着我们的日常生活及企业的信息技术策略。云存储服务作为云计算
摘 要:使用与水中HPAM反应效率高、反应较完全的无机净水剂聚合物氯化铝(PAC)[1]和阳离子絮凝剂对含聚污水预处理,预处理后的污水再经过微生物处理工艺,处理后的污水含油为5.5mg/L,悬浮物为9.3mg/L,聚合物为92.3mg/L。 关键词:含聚污水 阳离子聚合物 微生物 前言 近年来,聚合物驱油已在油田得到广泛应用,相应产生了大量的含聚污水。含聚污水中不仅含有大量的油和悬浮物,还含
对黄檗落叶中新化感物质黄柏苷在黄檗及近缘种黄皮树种子萌发及生长过程中的化感作用进行研究,以期解读黄檗野生种群中幼苗稀少的成因。从黄檗落叶中提取分离黄柏苷,用不同浓