基于云计算平台的并行主元分析方法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:liongliong569
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的高速发展所带来的数据规模的海量性,使传统的主元分析方法难以满足大规模数据的处理需求。在移动通信领域,不断普及的手机业务使得运营商积累了海量的用户数据。主元分析方法不仅能够分析海量数据的主要成份,还能够对其进行降维、压缩和去噪,从而减小存储压力和提高数据挖掘的准确性,对于数据分析和挖掘具有重要的意义。因此,设计和实现一种面向海量数据处理的、高效的主元分析方法成为移动通信运营商进行数据分析的迫切需求。飞速发展的云计算技术,为我们提供了一种解决海量数据存储和处理的新的方案,也为设计一种面向海量数据处理的主元分析方法提供了新的途径。   本文通过对主元分析方法和基于云计算平台的并行算法设计架构的深入研究,提出了一种高效的基于云计算平台的并行主元分析方法。与传统的基于属性分割的并行主元分析算法不同,该算法依据对主元分析方法相关公式的变换,设计了一种基于元组分割的并行计算架构。该并行计算架构适应大部分数据集特别是移动通信业务数据集的特点--属性数目相对稳定而元组数目增长迅速,这就使得该并行架构显著减小了分布式集群并行计算时的数据冗余,从而提高了并行计算的效率和算法的可扩展性。基于元组分割的并行主元分析方法主要分为三个模块:(1)并行数据预处理模块负责把输入数据集转换为符合主元分析方法要求的数据格式;(2)并行计算降维模型模块负责基于主元分析理论从格式化的输入数据集中提取出降维模型;(3)并行数据降维模块负责利用降维模型,将原有的数据降维。   感谢中国移动通信研究院为我们提供实验平台--“Big cloud--大云”。我们将方法实现并部署在由128台机器构建的云计算集群上,采用中国移动通信集团大规模真实业务数据集对算法进行了评估。实验结果表明,基于云计算平台的并行主元分析方法性能优良,在效率、内存耗费、扩展性等诸多方面均优于传统的并行主元分析方法。
其他文献
近年来,我国大量公路工程步入了维修养护期,若依旧采用传统养护技术和工艺,很难满足公路路面养护需求,将大大增加沥青路面维修养护压力.目前,常见的路面养护方式包括超薄罩面
静力触探能够充分反映各类土层的物理力学性质,判断土的特性,进行分层分类.作为一种成熟的勘探手段,具备野外现场作业时间短、方便简单等特点,在岩土工程勘察中得到广泛的运
随着教育事业的发展和计算机教育的普及,各种考试类型的不断增加和考试要求的不断提高,教师的工作量将越来越大,传统的考试方式已经不能适应现代考试的需要,计算机考试无纸化的趋
截至2004年底,全国党员总数为6960.3万名,2004年全国共发展党员241.8万名,比上年净增137.1万名。全国现有党的基层组织347.7万个,比上年增加2.6万个,其中基层党委17.1万个、
[摘 要] 大学生入学教育重要,教育的内容合理、有针对性则更加重要。本文从学习目标教育,自控、自律教育,自主学习教育,内涵养成教育四个方面对大学生入学教育进行了探讨。通过入学教育对大学新生们进行合理、有效地引导,帮助他们尽快适应大学学习和生活,促进他们在大学阶段全面发展,培养他们早日成为社会需要的合格人才。  [关键词] 高等学校;大学新生;入学教育  [中图分类号] G641 [文献标志码] A
构件在生产或加工时会产生非预期的内部缺陷,这时需检查该缺陷是否在构件所允许的范围内,然后才能决定该构件能否使用。由于计算机断层扫描只能获取含有缺陷信息的二维断层图
近年来,随着我国经济的高速发展,建筑工程的规模以及数量相比以往都得到了大幅度的提升,基于这一现状之下,人们对于建筑工程施工中的质量安全问题也变得越来越重视,所以在项
众所周知,建筑行业是我国经济发展的中流砥柱,因此工程质量逐渐得到社会各界的广泛关注,尤其是其质量监管工作.建筑工程的质量监管能够为工程质量的提升带来积极影响,随着工
社区实践基地是高校公共管理类专业实践教学的重要载体,对于促进高校与社区的良性互动,实现高校与社区之间的资源共享、优势互补互利共赢具有重要意义.但高校社区实践基地的
[摘 要] 教材是学生进行学习的基础,是培养学生掌握知识的重要载体。本文在TQM视角下研究高校教材建设与管理模式,从顾客需求、教材质量、教材内容、同质化现象、教材编写与出版质量、教材的选用以及教材的管理等多个方面进行探析,提出相关的对策,改善并提高高校教材建设与管理质量。  [关键词] TQM;高校教材建设;管理模式  [中图分类号] G647 [文献标志码] A [文章编号] 1008-2549