基于Storm的流数据聚类挖掘算法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:songchuans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时至今日,云计算、物联网等技术正在兴起并且日益成熟,各种信息服务与技术产生的每日以TB甚至PB计的数据宣告着大数据时代已经来到,大数据具有大量、快速、多样、价值密度低等特点,如何高效地处理这类数据是我们必须面对的问题。本文基于大数据环境中的流处理模式,面向海量流数据,研究了针对流数据的聚类方法,既研究了提高聚类精度的方法,又研究了提高聚类算法计算效率的方法即流聚类算法的分布式并行化,并基于实时流计算平台Storm设计了流聚类挖掘算法的分布式并行化实现方案并进行了实现。在提高聚类精度的方面,本文对经典流聚类算法CluStream进行了改进。鉴于马氏距离考虑到了属性之间的联系,同时不受数据属性量纲的影响,用马氏距离替代欧氏距离来计算数据之间的相异度,设计了基于马氏距离的流聚类算法M-Clustering(Mahalanobis-Clustering),并在Storm仿真环境下设计了对比实验,实验结果表明,与CluStream算法相比,M-Clustering算法能够有效地提高对流数据的聚类精度。在流聚类算法的分布式并行化方面,本文针对CluStream算法的微聚类部分,设计了分布式并行化的实时流聚类算法DPRCluStream(Distribured Parallelized Real Time Clustering Algorithm for Sream Data),将数据的在线微聚类部分拆分成局部与全局两个部分分别做计算,其中局部部分由多线程并行处理。基于Storm集群的实验结果表明,DPRCluStream算法的聚类精度趋近于静态聚类算法k-means,并且随着并行化线程的增加聚类精度能够保持稳定,计算效率呈近线性提升。与当前大数据环境相适应,本文的研究内容较为先进且研究成果具有一定的理论价值与实用性。
其他文献
为深入探讨优质页岩储层的发育机理,借鉴沉积控相、相控储层的研究思路,以渝东南地区龙马溪组页岩储层为例,利用氩离子抛光-场发射扫描电镜(AIP-FESEM),有机碳丰度(TOC)测试,
目的:探讨改良根治术治疗乳腺癌的方法和疗效。方法:对采用改良根治术治疗的78例乳腺癌患者的临床资料进行回顾性分析。结果:78例共清除淋巴结1310枚,平均16.8枚;其中Ⅰ级淋巴结
公司治理结构是内部控制有效运行的前提和基础,是实施内部控制的环境制度,有效的内部控制将促进公司的发展。本文首先对公司治理和内部控制的相关概念和相互关系进行阐述,然后对
细胞色素氧化酶P450(CYP450)作为重要的药物Ⅰ相代谢酶,广泛参与药物在人体内羟化、氧化、还原、水解等多种Ⅰ相反应。CYP4503A(CYP3A)是CYP450家族中的重要成员,
数学概念的教学是数学理论教学的中心环节,是培养学生解题能力的前提,是提高中学数学教学质量的关键,是使学生掌握概念的本质属性,是使学生能自我建构概念网络的重要环节.下
期刊
目的探讨青光眼滤过性手术失败的原因及治疗方法。方法回顾分析2002年至2006年我科收治的青光眼滤过性手术失败的患者50例(53只眼)临床资料,包括年龄、性别、青光眼类型、首次手
患者,女,39岁.因右眼畏光流泪伴视力下降半年,于2004年2月24日来我院就诊并收住院.
患者男性,49岁。主因"左眼突然视物不清伴黑影遮挡7 d"于2011年12月24日入院。患者6个月前右眼被钢筋头崩伤,急诊于沈阳医科大学医院,诊断为"右眼巩膜破裂伤,右眼玻璃体积血",建
<正>IPTV业务发展现状据工信部历年统计数据显示,到2015年年底,IPTV用户总数为4589.5万;到2016年年底,IPTV用户总数为8678万;截至2017年11月末,IPTV用户总数已达到1.18亿户。
1 肝气郁滞,肝胃不和 病例1 王某,男,45岁,生气后致右胁下胀痛月余,伴胸闷,善太息,恶心纳呆,厌食油腻,脘腹胀满不适,纳后明显。B超示:胆囊炎。舌质淡红,苔薄白,脉弦,证属肝气