基于Spark的大规模矩阵并行化分解与求逆

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:starrydzf_01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  作为代数运算的基石,矩阵的分解和求逆在科学计算、数据挖掘、机器学习等诸多领域有着广泛的应用。然而大规模矩阵的分解和求逆运算难以在当下流行的Hadoop、Spark等分布式计算平台上很好地并行,以至于Apache Mahout里对于Cholesky分解目前都只有单机的实现。其中一个重要的原因是矩阵分解与求逆运算结果中的一个元素往往依赖于输入矩阵的若干个元素。针对这一问题,本文基于Spark平台研究优化了大规模分布式稠密矩阵的LU分解、Cholesky分解以及求逆的并行化运算方法。本文首先采用分而治之的并行化设计思路对大规模矩阵进行分块,将整个计算任务划分为更小的计算任务,最终实现高效的并行化矩阵分解和矩阵求逆运算。然后,本文研究了计算过程中的一些优化方法,例如利用高性能本地库、缩小工作集等。实验结果表明,本文提出的并行化算法具有较高的效率,所提的优化方法总体平均能提升约60%的性能。此外,本并行化算法具有近线性的数据与节点可扩展性和受益于Spark平台的高容错性。据我们所知,本文是第一个基于Spark设计实现分布式大规模矩阵LU、Cholesky分解以及求逆算法的工作。
其他文献
本研究选取了鼎湖山南亚热带森林演替早期:马尾松(Pinus massoniana),中期:荷木(Schima superba)、黧蒴(Castanopsis fissa)和顶级阶段的优势树种:黄果厚壳桂(Cryptocarya concinna)、肖
二氧化碳氧化乙烷脱氢制乙烯工艺是一个具有环境和资源替代式经济双重效益的绿色过程.采用CO作为温和氧化剂参与反应,不仅可以提高乙烯选择性;还可以减少温室气体CO排放,实现
  数据划分是分布式数据库实现并行化事务处理所面临的首要挑战.通常,传统数据划分方法没有考虑所执行数据划分的逻辑一致性.这造成分布式数据库中单一事务经常需要在不同
会议
蚕是重要的经济昆虫,同时也是鳞翅目的模式昆虫,蚕丝产业在我国拥有5000多年的悠久历史,在社会经济文化生活中占有重要地位。同时,家蚕功能基因组学的研究将为全面、准确地了解家
  随着对实时数据高性能分析需求的不断提高,实时OLAP系统获得了广泛关注,基于Spark平台的内存计算能力,有助于实现实时OLAP系统的实时数据分析.星型联接是OLAP系统的基础
会议
  本文研究了在属性之间存在优先级的情况下的广义犹豫模糊信息集成问题。考虑到属性优先级以及属性元素的统一程度的双重影响,本文首先给出了犹豫模糊信息下的熵值求法,并在
下行床由于气固接触时间短、分布均匀、近似平推流的气固流动方式,是一种理想的快速反应器,具有良好的应用前景。然而,下行床内颗粒浓度太低,在充分发展区域仅1%左右,如此低的颗粒
  计算机和Intemet的快速发展推动了网络科学的研究。信息传播是网络研究领域的热点,信息传播的一个关键问题是初始信息源的选择,传统的方法通过衡量节点重要性的指标(节点度
会议
Gemini型表面活性剂是80年代以来开发的一种新型高性能表面活性剂,这类表面活性剂具有优良的水溶性、极高的表面活性(低的CMC和高的PC20值等)、与普通的表面活性剂有良好的协
本研究的目的是实现马铃薯卷叶病毒(PLRV)外壳蛋白(CP)突变基因在大肠杆菌中的高效表达,并用表达的融合蛋白作为抗原制备抗血清,为进行PLRV的ELISA检测及组装ELISA检测试剂盒奠