基因序列聚类和分类研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ph103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代生物技术的不断发展特别是基因组计划的实施,人们不断获取大量的基因序列数据,准确、高效的对基因序列数据进行分析并挖掘出隐藏在其中的对人类有用的信息是非常必要的。聚类和分类技术正是能够对大量基因数据进行分析的技术。本文着重研究基因序列数据中的聚类和分类算法。K-均值聚类算法是一种常用的聚类算法,它采用重复再分配类成员,使同一个类成员之间分散度最小的方法来获得最佳聚类结果。本文提出了一种基于隐马尔可夫模型的二次K-均值基因序列聚类算法,引入了同源基因序列核苷酸比率趋向于一致的生物学特征来对基因序列数据量化并进行初次K-均值聚类,再将第一次聚类结果作为输入训练出表征序列特征的隐马尔可夫模型,最后采用基于模型的K-均值方法聚类,使得算法具有较好的聚类正确率。在研究了微生物基因核苷酸分布规律的基础上,本文提出了一种使用微生物遗传特征来进行基因序列聚类的方法。首先从每条基因序列中划分出若干个等差长度的采样片断,然后利用各采样片断的遗传特征值来作为基因序列聚类的依据。这是一种相对灵敏而且客观和可信度高的分类方法,试验结果表明该方法是可行的并且具有较好的聚类效果。在对基因序列进行分类的过程中如果训练样本种类不全,那么用常规分类方法进行基因序列的分类就会出现类缺失的情况。针对这个问题本文利用基因序列独特的排列及结构特征提出了多个新的与模型相关的度量方法,通过模型间距离矩阵获得的阀值动态调整分类的个数,这样就克服了人为假设已标记类个数为实际类个数的局限性,减少了训练样本种类不全对模型迭代训练的负面影响,成功解决了序列训练样本种类不全导致类缺失的问题。
其他文献
随着工作流技术在企业经营过程中的逐渐应用,人们越来越意识到工作流技术是一种能够有效管理、控制和协调复杂业务流程执行的信息技术手段。由于工作流起源于生产组织和办公自
本文对VR系统中模型优化、交互及信息查询技术进行了研究。文章以虚拟场景的构造为线索,研究了校园虚拟场景建模的分类和虚拟场景构造的流程,实现了对复杂场景数据的有序组织;采
Mobile Agent是一种能够自主控制通过网络进行迁移,有选择地在网络中不同的节点上独自运行以完成多种任务的程序。通常,Mobile Agent需要寻找恰当的计算资源、信息资源和网络
随着互联网应用技术的不断进步,以及规模的不断扩大,如何保障网络信息的安全性已成为新一代互联网急需解决的重要问题。基于并行分析的防火墙、入侵防护系统和流量检测系统等
工作流活动多实例,特指一个活动,有多个不同的工作流参与者。每个工作流参与者都执行一个同构的活动。工作流活动多实例所代表的业务流程在现实中非常常见,最常见的比如投票
传统网格门户往往作为网格项目或者网格中间件研发的一部分,具有很大的依赖性,不容易进行独立开发。随着大量网格门户的开发,进行了很多重复性工作,造成了大量人力、物力的浪
随着互联网技术的高速发展,各种异构的无线网络随之孕育而生。未来无线通信领域,必将是一个多种异构无线网络融合的趋势。因此,用户如何能够在多个异构网络覆盖的区域,通过合
P2P(Peer-to-Peer,即对等网络)是近年来广受IT业界关注的一个概念。由于广大的网络终端节点(普通用户拥有的节点,即通常意义上的终端设备)的计算和存储能力以及连接带宽随着摩
随着网络技术的普及,越来越多的学校建设了自己的校园网,校园网为信息和技术的交流提供了更大、更广阔的空间。基于网络技术开发的计算机辅助教学系统,已成为一种新兴的教学媒体
Web服务是当前万维网技术讨论的热点,作为一种分布式技术的革新,它最大的优势在于定义了应用程序之间交互的标准化,并且使用XML作为数据传输的中间格式,突破了应用程序所在平