基于分布De Bruijn图遍历的基因拼接算法的并行构建和化简方法

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户：jooey

【摘要】

：

　　目前基因拼接软件中应用最广泛的技术是基于De Bruijn图的基因拼接算法.随着第二代基因测序仪的大量使用和基因测序在工业中的广泛应用,常常需要对长达数十亿bp长度的基

【作者】

：

ZENGLi[1]曾理[2]CHENGJie-Feng[1]成杰峰[2]MENGJin-Tao[1]孟金涛[2]TUZhi-Bing[1]涂志兵[2]FENGShen-Zhong[1]冯圣中[2]

【机构】

：

Shenzhen Institutes of Advanced Technology,Chinese Academy of Sciences,Shenzhen,518055,PR.China

【出处】

：

2012全国高性能计算学术年会

【发表日期】

：

2012年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　目前基因拼接软件中应用最广泛的技术是基于De Bruijn图的基因拼接算法.随着第二代基因测序仪的大量使用和基因测序在工业中的广泛应用,常常需要对长达数十亿bp长度的基因组测序数据进行处理.针对海量的基因测序数据,快速、高效和可扩展的基因拼接算法变得非常重要.虽然已出现了一些并行拼接算法,如YAGA,开始研究这些问题,但是拼接过程中时间空间消耗较大的构图和单链化简这两大步骤在海量数据的挑战下仍然是最主要的计算瓶颈.这是因为现有工作在处理这几个步骤时通常使用了并行的表排序(list ranking),而该方法需要多次对De Bruijn图的海量顶点信息作分布式的排序,产生了大量的计算顶点间的通信.发现单链化简可由一次De Bruijn图深度优先遍历完成而不再需要表排序,于是提出一种基于分布式海量图遍历方法对单链化简进行优化,极大的减少处理器间的通信和计算节点之前的数据移动,因而取得比较好的扩展性,其算法复杂度O(g),通讯复杂度为O(g),这里g为参考序列的长度.用Yeast和C.elegans数据集对算法进行测试,当处理器的核数从8个增加到128个时,该算法可以得到10倍的加速比.

其他文献

基于CUDA平台应用蒙特卡罗模拟计算人民币月汇率VaR

　　理论证明蒙特卡洛模拟法能够精确估计汇率的VaR,但此方法计算量较大,实际中较难运用。在CUDA平台下利用GPU加速运算能很好的解决海量数据运算问题。在此假设汇率基本服从

会议

平台蒙特卡罗模拟计算人民币汇率波动率几何布朗运动模型蒙特卡洛模拟法蒙特卡洛方法数据运算

云环境中面向随机任务的用户效用优化模型研究

　　资源分配方法和技术一直是云计算领域中的热点问题。针对一定的用户任务，如何选择最合适的计算资源，使用户需求得到最大程度的满足，已成为决定云计算技术商业前景的关键。现

会议

一种基于动态调度的数据挖掘并行算法

　　数据挖掘并行算法，应该以不牺牲挖掘效率和挖掘质量为前提。通过对数据挖掘原理和并行化的深入研究，在考虑到挖掘效率，负载平衡，运行环境，节点状态等多方面因素的基础上，提出了

会议

IBFS:一种基于IB拥塞控制的公平带宽分配算法

　　作为承载云服务的基础设施,数据中心通常会在不同的应用和租户之间进行共享.传统的带宽分配需要预留带宽,但是流量行为难以预测.InfiniBand(IB)是HPC中主导的互联技术,同

会议

GRE:针对大规模图处理的一种新型算法框架

　　在大数据时代,图的分析和挖掘是一类非常重要的应用.其中,一大类的图算法可以用遍历模式来实现.本文通过对图遍历算法的基本计算特征进行分析,给出了一个新的实现图遍历

会议

模图处理图遍历算法广度优先搜索计算特征分析操作原语编程模型

数万核级与异构架构有限元程序可扩展性测试与分析

　　本文对多尺度有限元程序msFEM的CPU、GPU双精度以及GPU混合精度三个版本进行了测试.msFEM_CPU在美国橡树岭国家实验室的Jaguar上实现了从2万到20万核的可扩展性测试,在80

会议

基于分布式存储的正则表达式匹配算法设计与实现

　　深度包检测(Deep Packet Inspection,DPI)是一种先进的包过滤技术,广泛应用于防火墙中。基于正则表达式的模式匹配算法已成为实现DPI重要方法之一,传统的正则表达式匹配

会议

分布式存储正则表达式匹配模式匹配算法算法时间复杂度深度包检测包过滤技术Inspection网络安全

老年职工冬天洗澡四忌

冬天,老年人总喜欢热水浴,以舒经活血、去寒暖身,这是有益于身体健康的。但也有人在洗澡过程中感到头晕,甚至昏倒。为了防止类似事故的发生,请老人们注意以下几个方面: 一、

期刊

热水浴饱食热量消耗人易血液量公共浴室皮下血管血管功能适宜水温消化吸收

多核计算机体系结构构思权衡取舍分析

　　计算机体系结构设计同时具有艺术性和工程性。片上多核处理器为新型计算机体系结构的设计提供了机遇为了使构思有线索可循，本文给出了基于多核处理器的计算机体系结构构思

会议

多核处理器计算机体系结构结构构思权衡体系结构设计对立统一统一模型设计思想

一种基于MapReduce的防火墙策略冲突并行化检测及消解模型

　　防火墙在网络安全中起到很重要的作用，其中防火墙策略中的规则决定了网络数据包“允许”或者“拒绝”进出网络。对于大型网络来说，由于规则太多管理者很难保证其中不出现冲

会议

防火墙策略策略冲突检测并行化网络安全基于规则网络数据包片段规则形式

基于分布De Bruijn图遍历的基因拼接算法的并行构建和化简方法

其他学术论文