【摘 要】
:
随着RNA-seq产生的读段数量日益增加,读段比对成为了一个非常耗时的任务和环节。在RNA-seq分析中,准确而又有效的读段比对一直是一个难点和挑战。许多比对算法在可容忍的时间范围内采用不同的策略来为读段寻找可能的比对位置,并且为下游分析提供大量的比对信息。但是一些转录本分析任务(如转录本定量分析)只需要得知读段在转录本上的位置即可。由于转录本不含有内含子,读段可以被连续地比对到参考转录本,而不需
论文部分内容阅读
随着RNA-seq产生的读段数量日益增加,读段比对成为了一个非常耗时的任务和环节。在RNA-seq分析中,准确而又有效的读段比对一直是一个难点和挑战。许多比对算法在可容忍的时间范围内采用不同的策略来为读段寻找可能的比对位置,并且为下游分析提供大量的比对信息。但是一些转录本分析任务(如转录本定量分析)只需要得知读段在转录本上的位置即可。由于转录本不含有内含子,读段可以被连续地比对到参考转录本,而不需要由于内含子的影响而考虑读段的剪切点。因此,原始的比对问题可以被简化成一个子字符串搜索问题。目前已经有一些算法针对转录本分析任务采用了效率更高的比对策略来解决简化后的比对问题,但是由于这些策略是在原始读段上进行处理,比对效率的提高仍然受限。
在本课题中,我们提出一个基于哈希学习的比对算法,bit-mapping,即位比对算法,来将读段高效地比对到参考转录本上。Bit-mapping 通过对原始读段进行降维来加速比对速度。它通过参考转录本中的序列来学习哈希函数的参数,利用哈希函数生成序列的哈希码,进而比较哈希码的相似性来判断两个序列的相似性,从而定位将读段到转录本序列的对应位置。课题在模拟数据和真实数据上的评估bit-mapping的比对准确率和效率,并且和现有主流算法STAR, RapMap,Bowtie2和HISAT2进行比较。通过实验结果的比较,就准确率和效率而言,bit-mapping无论在模拟数据还是真实数据上都有着很强的竞争力,特别是较长读段(>100 bp)上的表现更为突出。
同时,由于目前的转录组比对算法主要服务于基因或转录组表达水平分析,实验也将bit-mapping应用于表达水平分析任务中,并分析实验结果的皮尔逊相关性以及离群基因和离群转录本。通过分析可知bit-mapping在转录组表达水平分析中的表现非常具有竞争力。
其他文献
高铁技术的快速发展对各行各业的发展起着重要的推动作用。钢轨铺设是指在焊轨基地将多根固定长度的钢轨焊接成一根长钢轨再到铁路现场进行铺设,焊接质量的好坏会影响列车的安全运行。因此,研究钢轨焊缝错边量的合格性检测方法对保障列车安全运行具有重要意义。在不同光照环境下,针对现有的计算机视觉方法不能自动在线识别焊缝的问题,本文采用均值聚类和水平集方法开展焊缝区域自动定位方法研究,进而实现焊缝错边量的合格性自动
涡旋波携带的轨道角动量(Orbital Angular Momentum , OAM)由于其独立于时间和频率之外的新的空间自由度而广泛运用于信息产业。在信息化时代且对高速率,大容量的通信质量的高要求下,携带轨道角动量的涡旋波被用于通信系统。由于轨道角动量的取值在理论上是无穷的,并且各模式之间彼此正交,因此将涡旋波应用到通信系统中潜力是无限的。现阶段,声涡旋在通信系统中的应用还是起步阶段,基于以上,
随着Galileo和北斗卫星导航系统的不断发展,GPS和GLONASS系统的持续优化,卫星导航已经处于多系统融合应用的新纪元,为各地军民生产生活提供了更多导航定位的可能性。同时,信息化、智能化时代的到来,生产生活中的各类应用也对卫星导航定位提出了更高的精确度和实时性要求。导航卫星选星是从所有可视卫星中选择最合适的卫星子集用于导航定位解算,从而避免将所有卫星用于解算带来的计算量;同时,选择的卫星子集
随着互联网规模的日益扩大,传统网络架构的局限性无法很好地满足多元化新业务所带来的通信需求。因此,如何设计新型网络架构,以从根本上解决传统网络的弊端,已成为信息领域最为迫切的研究内容之一。智慧标识网络通过灵活化的连接调度实现对网络的智慧化协同管控,是一种具备良好发展前景的新型网络架构。而由于互联网具有强大的开放性,攻击者仍然能在分析新型网络架构特征的基础上探寻新型攻击方式,网络中的安全隐患仍然存在。
随着数字媒体的不断发展,视频技术已经越来越多的应用于各个领域。但是,由于视频本身携带的数据量很大,直接应用不够现实,因此,需要在传输之前对其进行压缩。为了适应视频高分辨率的要求,视频编码技术经过了一系列发展,比如从H.264(Advanced Video Coding)到HEVC(High Efficiency Video Coding)等。针对这些编码标准的高复杂度问题,目前也有相关优化算法被提
近年来,伴随着智能技术的发展,智能化的移动机器逐渐走进人们的视野,定位技术作为移动机器人的重要技术之一,一直是人们关注的热点。目前最常用的定位系统为GPS和惯导,GPS可以实现在各种气候条件下、持续精密的导航,但受外界影响比较大,在有电磁干扰或者有遮挡的情况下不可用,惯导系统虽不受外界干扰,但会随时间的积累产生累积误差,定位的精度会受到影响。现今随着机器视觉技术的不断发展,基于视觉的定位方法,尤其
随着计算、通信和传感器技术的快速发展,大量的复杂动态系统比如自动制造系统,智能交通系统和物流系统等应运而生,它们都具有混合命令、控制、通信和信息问题的特征。由于各种信号的并发和冲突以及人为设计的运行规则,系统状态只能通过随时间异步发生的离散事件来改变。因此,这类人造系统通常被视为离散事件系统。特别地,由Ramadge和Wonham共同提出的监督控制理论为离散事件系统的控制提供了有力的支撑,其特点在
随着图像领域的飞速发展,导航系统中也渐渐开始使用计算机视觉技术。在GNSS(全球卫星导航系统)拒止条件下,面向无人机安全自主着降的任务需求,设计了一种新型合作标志,研究了目标的特征提取与跟踪方法,研究了无人机视觉导航位姿解算方法,研究了固定翼无人机着降视觉导航技术和固定翼无人机的回收技术等视觉导航应用,提出了一种使用视觉导航来修正无人机基于惯导推算的位姿累积误差的方法,最终实现了无人机的安全自主着
近年来,卷积神经网络在计算机视觉领域取得了巨大成功,其在不断提高图像分类、目标检测和图像语义分割等任务精度上限的同时,模型尺寸与运行时间也在急剧增加。由于移动端设备存在存储空间和计算能力的约束,使得现有卷积神经网络无法在这些资源受限设备上进行很好的部署和应用。在这种情况下,研究人员通过设计高效的卷积结构来代替传统网络中的标准卷积层,以达到减小模型参数量和运算量的目的,但是此类方法仍然存在模型泛化能
深度学习已经得到飞速发展,在图像识别领域,卷积神经网络的鲁棒性保证显得尤其重要。由于卷积神经网络的分布式表示特点,会对输入图像产生众多特征表示,这些特征表示中存在大量噪声信息,会严重影响网络的性能,此外由于训练数据的局限性,会影响神经网络区分非正常输入的能力。为了提高卷积神经网络的鲁棒性,我们在噪声通道选择、噪声特征过滤和防御对抗攻击三个方面分别提出了三个方法。针对噪声通道的存在而影响神经网络鲁棒