基于Spark的大规模矩阵并行化分解与求逆

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户：starrydzf_01

【摘要】

：

　　作为代数运算的基石，矩阵的分解和求逆在科学计算、数据挖掘、机器学习等诸多领域有着广泛的应用。然而大规模矩阵的分解和求逆运算难以在当下流行的Hadoop、Spark等分布

【作者】

：

高兴坤;顾荣;袁春风;黄宜华;

【机构】

：

南京大学计算机软件新技术国家重点实验室计算机科学与技术系/江苏省软件新技术与产业化协同创新中心

【出处】

：

第三届CCF大数据学术会议

【发表日期】

：

2015年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　作为代数运算的基石，矩阵的分解和求逆在科学计算、数据挖掘、机器学习等诸多领域有着广泛的应用。然而大规模矩阵的分解和求逆运算难以在当下流行的Hadoop、Spark等分布式计算平台上很好地并行，以至于Apache Mahout里对于Cholesky分解目前都只有单机的实现。其中一个重要的原因是矩阵分解与求逆运算结果中的一个元素往往依赖于输入矩阵的若干个元素。针对这一问题，本文基于Spark平台研究优化了大规模分布式稠密矩阵的LU分解、Cholesky分解以及求逆的并行化运算方法。本文首先采用分而治之的并行化设计思路对大规模矩阵进行分块，将整个计算任务划分为更小的计算任务，最终实现高效的并行化矩阵分解和矩阵求逆运算。然后，本文研究了计算过程中的一些优化方法，例如利用高性能本地库、缩小工作集等。实验结果表明，本文提出的并行化算法具有较高的效率，所提的优化方法总体平均能提升约60％的性能。此外，本并行化算法具有近线性的数据与节点可扩展性和受益于Spark平台的高容错性。据我们所知，本文是第一个基于Spark设计实现分布式大规模矩阵LU、Cholesky分解以及求逆算法的工作。

其他文献

生长光强对南亚热带森林不同演替阶段优势树种叶片形态结构、色素以及光合电子流分配的影响

本研究选取了鼎湖山南亚热带森林演替早期：马尾松（Pinus massoniana），中期：荷木（Schima superba）、黧蒴（Castanopsis fissa）和顶级阶段的优势树种：黄果厚壳桂（Cryptocarya concinna）、肖

学位

生长光强南亚热带森林群落演替光合色素光合电子流分配

纳米氧化物催化二氧化碳氧化乙烷脱氢制乙烯的绿色过程

二氧化碳氧化乙烷脱氢制乙烯工艺是一个具有环境和资源替代式经济双重效益的绿色过程.采用CO作为温和氧化剂参与反应,不仅可以提高乙烯选择性;还可以减少温室气体CO排放,实现

学位

纳米复合催化剂CrO乙烷氧化脱氢CO

HRCP:一种面向并行复杂事务处理的高性能数据划分策略

　　数据划分是分布式数据库实现并行化事务处理所面临的首要挑战.通常,传统数据划分方法没有考虑所执行数据划分的逻辑一致性.这造成分布式数据库中单一事务经常需要在不同

会议

家蚕DRP和SSP基因的研究

蚕是重要的经济昆虫，同时也是鳞翅目的模式昆虫，蚕丝产业在我国拥有5000多年的悠久历史，在社会经济文化生活中占有重要地位。同时，家蚕功能基因组学的研究将为全面、准确地了解家

学位

家蚕核型多角体病毒细胞免疫组化荧光定量分子调控机制家蚕唾液蛋白

Spark环境下基于多维Bloom Filter的星型连接算法研究

　　随着对实时数据高性能分析需求的不断提高,实时OLAP系统获得了广泛关注,基于Spark平台的内存计算能力,有助于实现实时OLAP系统的实时数据分析.星型联接是OLAP系统的基础

会议

广义犹豫模糊优先级混合算子及其在决策中的应用

　　本文研究了在属性之间存在优先级的情况下的广义犹豫模糊信息集成问题。考虑到属性优先级以及属性元素的统一程度的双重影响，本文首先给出了犹豫模糊信息下的熵值求法，并在

会议

广义模糊信息优先级混合算子决策赋权方法属性运算规则

高密度下行床形成机理及流动特性

下行床由于气固接触时间短、分布均匀、近似平推流的气固流动方式，是一种理想的快速反应器，具有良好的应用前景。然而，下行床内颗粒浓度太低，在充分发展区域仅1％左右，如此低的颗粒

学位

提升管循环流化床流动特性高密度下行床压力平衡相结构流化床停留时间下行床反应器多相流

大规模网络中有效传播源问题研究

　　计算机和Intemet的快速发展推动了网络科学的研究。信息传播是网络研究领域的热点，信息传播的一个关键问题是初始信息源的选择，传统的方法通过衡量节点重要性的指标(节点度

会议

阳离子型Gemini表面活性剂合成及性质研究

Gemini型表面活性剂是80年代以来开发的一种新型高性能表面活性剂,这类表面活性剂具有优良的水溶性、极高的表面活性(低的CMC和高的PC20值等)、与普通的表面活性剂有良好的协

学位

Gemini表面张力电导率临界胶束浓度

马铃薯卷叶病毒CP基因的突变、原核表达及抗血清制备

本研究的目的是实现马铃薯卷叶病毒(PLRV)外壳蛋白(CP)突变基因在大肠杆菌中的高效表达，并用表达的融合蛋白作为抗原制备抗血清，为进行PLRV的ELISA检测及组装ELISA检测试剂盒奠

学位

马铃薯卷叶病毒CP基因密码子突变原核表达融合蛋白抗血清制备

基于Spark的大规模矩阵并行化分解与求逆

其他学术论文