关联规则挖掘算法的并行化及应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:davesd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着经济和技术的迅猛发展,数据量呈现指数级别的爆炸式增长。面对海量的数据,从中获取有价值的关键信息成为了难题。数据挖掘技术为解决这一问题提供了有效途径,而如何进一步提高数据挖掘算法自身及其在各领域的应用效率已成为相关领域的热门课题。关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系。Apriori算法是最具有代表性的用于挖掘关联规则的算法,但是在产生候选项集和计算项集支持度的过程中I/O负载很大,时效性需要进一步改进。Spark平台是一个分布式的基于内存的适合迭代计算的大数据框架?本文以提高强关联规则挖掘的准确性为目标,通过引入兴趣度对Apriori算法做了改进,改进算法命名为I-Apriori(Improved Apriori);以提高强关联规则挖掘的时效性为目标,设计了I-Apriori算法基于Spark的并行化方案?该方案利用Spark平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用transformation操作求得局部候选项集及支持度,并存储于内存中;汇总节点基于各局部候选项集产生全局候选项集和全局频繁项集;不断迭代,直到下一级候选项集不存在为止?性能测试实验结果表明:基于Spark平台的并行化I-Apriori算法可以有效地分析大型数据项集中的频繁项集和提取强关联规则,具有较高的准确性和时效性?为了更好的检验并行化I-Apriori算法的实用性,本文开发了一个简单的医疗辅助诊断系统。该系统将医疗系统的处方数据与病人的病史数据相结合,利用I-Apriori算法进行药品推荐以及寻找可能存在的并发症,辅助医生进行病症的及时救治和早期预防。应用结果表明,所开发的系统能够进行药品推荐并判断可能出现的并发症,I-Apriori算法对于医疗大数据的有效利用具有一定的现实意义。
其他文献
散文阅读教学品味言语形式中不能仅从字词句的角度分析,还应该有篇章的视角。对篇章层次的品析应该从深层次来探寻其奥秘。从篇章视角进入散文阅读教学,可以“章”为抓手,以
职业健康检查是以预防为目的,根据劳动者的职业接触史,通过定期或不定期的医学健康检查和收集健康相关资料,保护劳动者健康。实际工作中,存在着体检项目随意性大、体检周期不科学
目的 评估乳腺癌术后服用他莫昔芬(TAM)患者子宫内膜组织中PTEN蛋白的表达情况,从分子生物学水平探讨其与TAM介导子宫内膜病变的关系。方法 选取2018年1~12月首都医科大学附
<正>青岛市残疾人康复职业培训中心是青岛市惟一集残疾人医疗康复、教育康复、职业康复、心理康复及社会康复于一体的综合康复服务机构。中心始建于1988年3月,内设聋儿语言训
近半个世纪以来,激素替代治疗(hormonereplacementtherapy,HRT)已广泛应用于绝经期及绝经后妇女,它能有效地缓解潮热、出汗、阴道萎缩、尿失禁等绝经后症状,特别是能预防绝经后骨质丢失,减少骨折及降低冠心病的发
物流通道选择的合理化是物流企业降低物流成本,提高物流效益的的关键所在.笔者在文中利用层次分析法建立物流通道合理化选择的数学模型.该模型选择若干物流指标进行分析研究,
在市场经济飞速发展下的今天,市场经济体制已经发生了不同程度的变革,社会生产力与生产效率不断提高,同时贸易往来也开始频繁起来,在贸易发展趋势上升的情况下,大宗商品的贸
介绍了一种新型的全封闭润滑装置,此装置实现数控落地铣镗床中主传动齿轮及轴承的全封闭润滑,润滑油循环快捷,对机床不造成污染,降低了润滑油的油温对机床精度的影响.
<正>吉林省地方标准DB22/T 2783—2017前言本标准按照GB/T 1.1—2009给出的规则起草。请注意本标准的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本标
目的:研究培土生金穴位敷贴对咳嗽变异型哮喘(cough variant asthma,CVA)患儿免疫球蛋白及T淋巴细胞亚群的影响。方法:纳入86例CVA患儿,随机均分为观察组与对照组,各43例。对