【摘 要】
:
随着信息技术特别是移动通讯技术的发展,社交网络、物联网、云计算等相继进入人们的日常工作和生活中,人们积累了大量数据,并且数据仍然呈快速增长趋势。面对海量的数据,如何
论文部分内容阅读
随着信息技术特别是移动通讯技术的发展,社交网络、物联网、云计算等相继进入人们的日常工作和生活中,人们积累了大量数据,并且数据仍然呈快速增长趋势。面对海量的数据,如何从中挖掘出有价值的信息成为许多领域广泛研究的问题。聚类分析是数据挖掘和机器学习中常见的技术,在在学术和工业领域被大量使用。然而,传统的聚类算法以串行方法对数据进行处理,当应用于海量数据分析时,由于内存限制等原因,其效率不高,不能满足当前对海量数据处理的需要。为应对海量数据的挑战,提高聚类算法的效率,并行聚类技术成为当前研究的热点。Hadoop当前广泛使用数据分析平台,它是对MapRedcue计算模型和分布式存储系统GFS(Google File System)的开源实现。Hadoop因其易用性和良好的扩展性,已成为大数据分析的核心之一。Spark是当前十分流行的分布式计算计算平台,它实现了一种基于内存的分布式数据结构,并且提供了简单且强度的的编程接口,可以被用来构建大数据分析中的聚类算法。本文分析了对上述大数据处理平台进行了对比,详细分析了其并行化原理,论述了如何将聚类算法并行化以对海量数据进行处理。本文分析大数据分析中典型的聚类算法,分析了它们各自的特点及应用场景,同时提出一种基于预测强度大数据集k-均值聚类算法,并给出其在上述两个平台上的实现。
其他文献
对北斗地球同步卫星(GEO)使用甚长基线干涉测量技术(VLBI)进行测量,VLBI测量的是目标横向位置与速度,从而与测距测速技术形成互补。研究了VLBI观测卫星的基本原理和Di FX(distributed FX correlator)对卫星处理主要流程。利用适合于卫星的Di FX软件相关器进行数据处理分析获得了清晰的干涉条纹。针对中国科学院国家授时中心宽带VLBI系统在观测北斗卫星信号时,由于观
孙犁的短篇小说有其耐人咀嚼的艺术魅力,是因为他让读者品尝到了在别的作家作品中很少尝到的冀中风味.特别是小说中的人物对话,通俗、生动,如话家常,耐人寻味,尽情尽致地活画
2月24日,中国建筑材料科学研究总院有限公司党委书记、院长王益民到水泥新材院和陶瓷院调研指导疫情防控和复工复产工作,并充分肯定了水泥新材院、陶瓷院全面加强疫情防控、
本文从适当地保留地域传统、再现历史传承和历史文化、提炼优秀文化元素融入景观设计中三个方面指出了地域文化在园林景观设计中运用的途径,对园林景观设计具有一定的指导意
本文从公文的语言的无主性、介词短语的多重使用:从用词的典雅之美、通俗之美,以及公文语言的模糊性等方面论述了公文语言的特征,目的在于指导公文写作实践.
状态监测和故障预测技术是数控机床实现自主保障的一项关键技术,首先提出了状态监测和故障预测维修的组成及功能,构建了数控机床维修系统的功能框图并分析了其工作流程;接着
在中学与大学物理教学中,计算滑动摩擦力做功的问题是物理教学中的一项重点教学内容。通过例题分析的方法,将摩擦力的做功问题进行了讨论分析。
基础教育新课程改革的实质是一场深刻的价值变革;核心是加强课程内容与现实生活和学生经验的联系,以学生发展为本;实现课程发展的生活化,多元化,个性化.
债券违约事件频发、速度加快,对金融市场造成较大的冲击。本文试图预估后续影响、分析发生原因,并在此基础上提出防范风险的建议措施。
Bonds default frequently, speed up
体育意识是自觉进行体育活动的前提和基础。努力培养大学生的体育意识,使学生积极从事体育锻炼并最终与社会体育接轨,发挥校园体育的辐射作用至关重要。本文重点论述了采取有