【摘 要】
:
生活在信息大爆炸的时代,社会网络产生数字图像、视频、网络博客,网络社区等形形色色的数据。但是随着数据的数据源种类越来越多样化,数据的爆炸式增长,传统的数据挖掘技术已
论文部分内容阅读
生活在信息大爆炸的时代,社会网络产生数字图像、视频、网络博客,网络社区等形形色色的数据。但是随着数据的数据源种类越来越多样化,数据的爆炸式增长,传统的数据挖掘技术已经不能满足我们的要求,需要建立一种新的有效机制来实现海量数据的分析处理。而云计算平台下的数据挖掘的出现是由于其能提供大规模的存储空间,便于海量数据的存储,同时具有很高的可扩展性,编程人员能够在它们的服务之上构建无缝可扩展的应用。因此,如果能够优化传统的数据挖掘算法将其部署到云计算平台之上,便可解决海量数据处理难的问题。但是,将传统经典算法部署到云计算平台架构之上,也会遇到很多问题。(1)处理大数据中的算法重复迭代是不可避免的难题;(2)数据循环遍历产生的通信成本负荷重;(3)传统算法分析处理海量数据的时间慢,产生的I/O成本和网络成本大。针对传统数据挖掘技术在云计算平台上遇到的问题,本文首先从云计算平台和数据挖掘的基本原理[35]出发,分析云计算中的相关技术、讨论并行编程模型MapReduce的编程原理、分布式系统HDFS的存储方式以及基于云计算的Hadoop平台的数据挖掘架构,提出使用云计算下的数据挖掘处理机制来解决处理大规模数据难的问题,并获得较高的性能;其次针对大数据的数据类型多样化和数据量的倍增,提出对基于云计算平台下的传统数据挖掘算法K-Means算法进行优化的方案,消除迭代算法的依赖性和减少计算成本;最后将优化后的K-Means算法移植到Hadoop平台进行试验,通过Hadoop集群下的MapReduce的编程计算模式调用优化后的K-Means算法,验证优化后的算法的有效性和可靠性。
其他文献
西柏坡时期中共中央和毛泽东立的"规矩"是多方面的。其中为建立新中国所订立的政治制度与原则是:创立人民民主专政的国体制度;确立人民代表大会的政体制度;确立共产党领导的
目的:观察银杏叶滴丸治疗老年冠心病心绞痛的临床疗效。方法:选择2010年5月—2013年5月本院就诊158例冠心病心绞痛患者,随机分为试验组78例和对照组80例,对照组给予常规处理,
民族区域自治是中国共产党人坚持把马克思主义民族理论与中国具体实际相结合的成功创举之一,是对马克思主义民族理论的丰富和发展。西柏坡时期中共在内蒙古地区实行民族区域
通过XRD分析,研究预烧、煅烧环境对制备磷酸铁锂(LiFePO4)时磷化铁(Fe2P)杂质的影响。预烧中生成大量的还原性气体及煅烧温度,对Fe2P的生成有重要影响。在预烧和煅烧过程中,
目的:观察养血活血法联合西药治疗白癜风的临床疗效。方法:选择本院2011年1月1日—2014年6月30日收治的白癜风患者82例,按照随机自愿的原则分为治疗组和对照组各41例,对照组
【本报讯】(记者季杰)“我们都很有信心,这里将成为深圳继东门、华强北之后的第三商圈。”昨天,深圳市海岸商业管理有限公司总经理陈珊和入驻商家吉之岛常务副总经理叶青、顺电掌
专题学习网站是目前网络教育研究的热点之一,但大多数专题学习网站是一种完全“学生驱动”的学习资源库式的系统,用户很难把握好自己的学习方向和过程,难以保证学习的质量。
目的:观察耳穴压豆疗法配合自我管理防治高血压的临床疗效。方法:选取高血压患者170例,随机分为观察组89例和对照组81例。观察组给予耳穴压豆疗法配合自我管理的干预措施防治
目的探索IL-1400(又称IL-BGE)血气电解质分析仪试剂的配制。方法自配IL-1400血气电解质分析仪试剂,与进口原厂试剂进行比较分析。结果自配试剂与进口试剂的测定结果各组差异
在豪华车阵容里,宝马进入中国市场的时间并不长,但其发展的势头却是有目共睹。宝马的品牌价值被挖掘得如此之深入,品牌的塑造如此之精准,对于中国汽车企业堪称教科书式的经典案例