DNA装配中的纠错

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:xiaobailxiaoyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA装配问题是指把各个读出序列(reads)拼接成一条完整的DNA链,即确定原DNA链的核苷酸“A,T,C,G”的排列顺序。实验中,由于各种原因,测序得到的读出片段序列与DNA链的实际结果会有误差,这些误差会影响到用于装配的算法的性能,因此需要对测出的读出序列进行纠错。现有的算法如:ECINDEL和SRCorr都能够对实验数据进行纠错。但是它们都是根据某个读出序列出现的次数来判断它的正确性。这类算法首先选择参数k和M,若读出序列所有长度为k的子串出现的次数均大于M次,则它为正确的读出序列,即确实为原DNA链的子串。同时,还可以利用这些长度为k的子串来对原来的读出序列片段进行纠错。然而,在这些算法中,M的选择要么是一个固定值,要么是随机的,使得这些算法在纠错问题上的表现并不稳定。   本文我们计算长度为k的子串出现M次时,它的真阳性(确实为原DNA链的一部分)的概率以及假阳性和假阴性的概率。根据计算结果,作者可以选择一个最优的M值使得最后选取的子串的错误最少,即假阳性的子串与假阴性的子串的数量之和最小。作者在模拟数据和实际数据上进行了验证,与之前的纠错算法ECINDEL,SRCorr相比,作者的算法总的错误率降低了77.6%和65.1%。
其他文献
中科院等离子所超导电工中心基于ITER项目,需要对超导导体样品进行性能测试,本文研制了一套数据采集系统用于ITER超导磁体测试实验,负责电压、电流、温度等物理量的测量。  
随着信息化建设的不断发展,高校中各个部门也使用越来越多的信息系统进行办公。然而由于这些应用系统都是在不同时期采用不同技术开发的,系统间缺乏足够的信息交互,使得系统的信
网络链路数据是所有网络研究的基础,通过采集和分析互联网数据,可以了解网络运行状态、网络负载情况、网络安全状况以及用户行为模式等信息。随着主干网链路速率由1000Mbps提升
高校办公自动化(OA)系统是服务于全校各单位的网上综合办公平台,是数字校园应用平台最核心的内容,是实现学校电子校务、数字化管理的基础,并为学校其它应用系统提供数据接口,是学校
医学影像算法平台(通常也称作为算法工具包Algorithm Toolkit)的研发是医学影像领域的一个研究热点。目前国内外已经有了许多成熟的医学影像算法平台,包括VTK、ITK和MIITK等。
学位
访问控制是网络安全防范和保护的主要策略,它的主要任务是保证网络资源不被非法使用和访问。随着Intemet和信息化技术的发展,企业信息系统得到了更多的关注和应用,传统的访问控
随着Internet上异构应用系统的大量增加和SOA技术的空前发展,Web服务技术变得越来越重要,已经成为了学术界和工业界关注的热点。在Web服务技术中,服务发现为Web服务消费者调用We
流量识别是指利用相关技术手段自动化将网络流量按照预先设定的标准划分为不同种类的分类技术。该技术被广泛应用于合法监听、网络调度、异常检测和套餐设计等众多领域,方便网
RFID(Radio Frequency Identification)是一种非接触、多目标、移动目标识别的自动识别技术,目前受到了全球范围内的广泛关注和大力推广。作为支持RFID技术应用最重要的核心服
作为一种积极主动的网络安全防护技术,入侵检测提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统受到攻击威胁时响应入侵。入侵检测技术是防火墙技术的有利补充,受