【摘 要】
:
随着科学技术的不断发展,各行各业产生着以往无法想象的海量数据。人们急需从海量数据中得到有用信息。主成分分析和因子分析作为常用的数据降维方式对于从数据中提取有用信
论文部分内容阅读
随着科学技术的不断发展,各行各业产生着以往无法想象的海量数据。人们急需从海量数据中得到有用信息。主成分分析和因子分析作为常用的数据降维方式对于从数据中提取有用信息有着非常重要的意义。本文对主成分分析和因子分析的算法进行了研究,并且在Spark平台上实现了这两种算法。本文的主要研究工作如下:(1)实现了基于Hadoop平台的一个数理统计的功能集,该功能集包括了最常用的数理统计功能:常用统计量(包括平均数、方差、众数、中位数等11个统计量)、单变量分析(通过计算一个因变量和多个自变量之间的协方差判断因变量和自变量之间的相关关系)、多变量分析(通过计算多个变量之间的相关系数矩阵来判断变量两两之间的相关关系)、假设检验(包括单变量T检验,成对样本T检验,独立样本T检验)、自助法(对数据进行重抽样,计算抽样样本的均值和方差)。(2)实现了基于Spark的主成分分析和因子分析。本文将分而治之的思想和QR分解应用到主成分分析和因子分析。分而治之的思想就是将“大问题”化成“小问题”,然后利用Spark分布式计算的能力并行解决小问题,尽最大努力节省计算时间。利用QR分解的方法(QR分解是效率最高的矩阵分解)用于分块矩阵特征值求解,提高“小问题”的运算效率。算法结合了分而治之的思想和高效的QR分解算法,并且充分利用了 Spark平台的并行运算能力。最后,本文通过对不同规模的数据集进行实验。实验结果表明,本文提出的并行算法能够提高运算效率。
其他文献
<正>2017年,北京高校普法微视频征集活动已举办五届。五年来,北京市委教育工委、北京市教委与时俱进、创新工作,北京教育音像报刊总社广泛宣传、完善组织,已将高校普法微视频
信息化的蓬勃发展促进了教育的创新与变革,也使得学习环境的建设迈入了新阶段。随着“三通两平台”建设高潮的掀起,教师个人网络空间应运而生,而教育信息化的本质就是实现教
PPP模式是政府部门完成公共设施建设的重要方式,既可以缓解公共设施建设的资金短缺和建设效率不够理想的问题,也可以拓展社会资本的获利空间。本文就社会资本在PPP项目中的风
在迈克尔·杰克逊震惊世人地突然离世两年后,这位流行天王的畅销经典作品终于被获得管乐队的改编而热力四射地发行了。铜管乐团嘹亮的声音,将迈克尔·杰克逊歌曲中的辉
第一条为了加强和规范农村集体资产监督管理,维护农村集体经济组织及其成员的合法权益,支持和促进农村集体经济可持续发展,根据《中华人民共和国民法总则》、《中华人民共和
耿福民,1953年生,宁陵县人,中国美术家协会商丘分会理事,中国书画家协会会员,曾任县文联主席,从事文联、艺术馆专业绘画艺术工作多年。自幼酷爱绘画艺术,擅长写意花鸟,梅、兰
经过30多年高速增长,中国经济步入中高速增长新常态,由追求速度转向追求质量势在必然。解决质量问题不仅是我国经济社会发展的时代要求,也是人民生活水平提升的必然要求。只
夏秋季,气温水温高,既是鱼类食欲旺盛,生长最快的季节,又是鱼病、灾害性气候(台风)、洪涝多发时期,抓好夏秋季池塘养殖管理,是实现全年渔业生产丰收至关重要的一环。笔者现将夏
<正>科尔尼咨询机构的最新研究表明,受国际业务量和B2C业务量增长的驱动,2011年欧洲快递与包裹市场实现4%的稳定增长,未来几年还会延续这种趋势。调查显示,2011年欧洲快递与