新型DNA甲基化状态预测程序的研发和并行优化

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:lengzhichao12321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
已有的相关方法和软件在解决表观遗传学领域中DNA甲基化状态预测问题时,存在不准确、速度慢、时空效率低等问题.针对该问题设计并研发了新的甲基化状态预测程序("Hint-Hunt").新程序通过对含有辅助定位信息的甲基化序列进行最优相似比对,实现了对DNA甲基化状态的分析与预测,能够精准地给出参考序列中每个位点的甲基化状态数据.同时程序还实现了甲基化状态的假阳性识别、阈值过滤、最优筛选和得分共享机制等新功能.针对Hint-Hunt程序时空效率不高的问题,还面向天河2号高性能计算机研发了程序的并行版本("P-Hint-Hunt"),P-Hint-Hunt程序采用任务和数据的细粒度划分以及OpenMP多线程方法对复杂大数据任务进行大规模并行处理,还设计了集中式循环IO方法和基于索引的多线程任务划分,避免由于程序频繁IO导致的额外开销.使计算任务负载均衡,进一步提高了并行效率.最后,还针对天河2系列超级超级计算机专有体系结构,CPU和Intel Xeon Phi协处理器的异构模式,实现了基于字节数的跨节点细粒度任务划分策略,保证了各节点的任务高效调度和负载均衡.实验表明,新型Hint-Hunt程序有效解决了DNA甲基化状态的分析与预测问题,P-Hint-Hunt程序并行加速效果明显,实现了多节点上多线程的两级并行结构,64线程加速比达到47倍.同时针对最新的Intel XeonPhi协处理器平台对程序进行了深度加速,加速比达到40倍,充分发挥了其众核优势.
其他文献
洗涤并不是简单地去除衣物污渍,而是从消费者洗涤计划开始的一瞬间,直到衣物洗净晾干后穿在身上——整个过程的整体体验。本报告将着眼于探讨如何衡量技术创新对消费者视觉、触觉和嗅觉体验的提升。同时,报告将以酶制剂、聚合物和胶囊技术创新为例,分享技术创新带给消费者体验的提升。
会议
会议
会议
会议
会议
宏基因组主要研究特定环境中微生物的组成及与环境因素的交互关系,其任务之一是将不同基因按照样本特征进行聚类,进而研究各类之间的相互关系.由于样本量m-般在上千左右,每个样本中包含的基因数量n也在百万左右,且符合数据特性的聚类算法复杂度为O(m2n2),常规实现方式需要耗费大量计算时间.为此,本文选取适用于宏基因组数据的聚类算法,使用一千个样本和五千个基因进行测试,原串行程序需要运行十几个小时,而基于
生物信息学的快速发展使得其所研究的生物体基因组规模越来越大,结构越来越复杂,这对如何快速进行基因组组装,获得准确完整的基因组序列提出了巨大的挑战.基因组组装中的线性化步骤耗时巨大,是计算密集型和内存访存密集型兼具的过程,本文研究了将随机List ranking算法应用于该线性化步骤的新型并行方法,对其基本原理进行了解释,并根据其具体实现方案,细致分析各个要点,设计了相当完备的通信消息量模型,非常准
本文提出一种基于云安全的便携云存储设备,具备自安全、自学习、自审计功能,能够有效规避非安全环境下对存储操作时发生的泄密等非安全事件.通过内置安全引擎能够实现基于HTML5浏览器和基于X-Client方式的硬加密访问;通过内置网络安全引擎以及高性能签名算法,能够实现高速网络安全访问以及安全云存储功能.同时应用一种适用于云存储安全的深度学习技术,可作为传统被动入侵防御技术重要补充技术手段,满足当前安全
我国国家级超级计算中心普遍面临应用不足、应用领域狭窄,投资巨大、运营开销昂贵的问题,通过对比国内外典型超算中心应用和运营机制,分析我国超算中心在应用推广和运营机制方面的问题,指出需要针对我国超算中心建设特点和应用需求,由政府主导,联合高校、科研机构和企业联合推动超级计算机应用,提高我国超级计算机应用水平,实现超算中心良性运营。
在用机器学习方法解决自然语言处理领域的问题,将词或符号表示成向量是一项基本工作.Google的开源工具word2vec利用深度学习模型得到的分布式词向量,能粗略表示词与词之间的距离,甚至词与词之间的向量运算能与语义对应,是近年来获得词向量的主流方法.在GPU上训练得到词向量,实现了CBOW和Skip_gram两种模型,每种模型又包含了层次Softmax和负取样两种算法.其中在层次Softmax算法