基于项编码的分布式频繁项集挖掘算法

来源 :计算机应用研究 | 被引量 : 25次 | 上传用户:deng15088151952
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果
其他文献
通过病例分析蛋鸡的临床症状、剖检变化,提出相应的防治措施,为以后的工作提供借鉴。
在牛养殖的过程中,高热症状疫病会对牛的健康造成较大影响,其具有患病率较高,传播速度快的特点,可能会造成大面积的牛被传染,病情严重的会死亡,带来巨大的经济损失.牛高热症
本文通过实验研究的方式,在某地养猪场中选出10头猪进行疾病预防和治疗实验,对器具选择、保定方法、注射位置和注射方法等进行介绍,并从技术和药物两个方面提出注射要求,最后
猪链球菌病是由多种致病性链球菌引起的一种细菌性人兽共患病,为了探讨猪链球菌病的防治,本文从猪链球菌的病原、流行病学、临床症状、病理变化、诊断方法和防治措施方面进行
针对当前局部社区发现算法扩张速度慢不适用于大规模网络的问题,提出了一种基于图遍历的局部社区发现算法。该算法首先找出网络中度数最低的节点,以该节点为起点通过影响力函数将网络中的节点分为社区节点和边界节点,形成初步的社区划分,然后通过适应度函数确定边界节点的社区得到最终划分结果。实验结果表明,该算法在真实网络上进行测试时不仅能够有效地挖掘网络中的社区结构而且具有较快的速度。
针对经验模态分解(empirical mode decomposition,EMD)过程中存在的包络拟合问题,提出了一种消减欠冲现象的改进算法。该算法通过引入伪极值点增加了极值点的数目,构成了新的极值序列;然后利用新的极值序列插值拟合得到新的包络线;最后通过仿真实验对比所提算法和经典拟合算法包络拟合产生的欠冲点数目。实验结果显示,与经典拟合算法相比,改进的算法产生的欠冲点数目减少了大约77. 5%
<正> 毫无疑问,液晶投影机在技术上是一项高科技的产品。但生产、制作高科技产品未必一定需要高技术、高起点。比如电脑是高科技产品,但生产、装配电脑在某种程度上比生产电
<正> 本文介绍一种型号为MIC5213的线性稳压器系列。该系列主要特点有:采用超小型SC-70封装,其面积只有SOT-23的一半,一个SO-8封装的面积中可放入7只SC-70封装的IC,具体尺寸
<正> 图1所示为白光392真空吸放台,由控制台,吸放笔及软管三部分组成。控制台尺寸为132&#215;170&#215;83mm~3,内置膜式泵、吸力强劲,可吸取重120g的物件;吸放笔尺寸为φ10mm
【正】 用高保真耳机来听音乐,其解析力高,无需过于复杂的配置,花费不大便可获得数倍身价于它的台式音响组合的重放水平,同时欣赏效果不受时间、环境的影响,也不用担心影响他