基因表达数据分析中的数据挖掘技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kiujiabing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物学和医学的迅速发展,以及基因芯片的逐步实用化使得研究大量基因的特性成为可能,但随之产生了海量的基因数据。如何分析这些具有丰富内涵的数据并从中获得有关生物结构和功能的信息,从中得到对人类有益的信息,是生物信息学这一综合了生命科学、数学科学、信息科学以及计算机科学等的交叉学科的重要任务和内容。  基因表达数据分析的主要目的是建立相应的基因调控网络模型,分析基因之间以及基因与启动子之间的调控关系,进而找到基因与生物性状之间的联系。基因表达数据分析是建立基因调控网络模型,分析基因之间调控关系的基础。目前已有多种数据挖掘方法应用于基因表达数据分析。其中数据挖掘技术中的聚类方法是基因表达数据分析的常用方法,它将表达规律相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。但是目前这类方法只能找出基因之间简单的、线性的关系,忽略了生物体复杂的、非线性的关系;不同算法取样的点可能不完全一样,选择不同的聚类方法将产生不同的信息,即使采用同样的数据也有可能出现不同结果;聚类结果对噪声比较敏感,易受到噪声的影响;忽略了基因表达数据时间序列的特点,未能挖掘其在时间表达方面的特征,尤其对于基因表达数据中可能潜在的周期性和调控延时的关系无法加以体现;海量数据的高维性等等。  针对基因表达数据分析中存在的问题,本文主要从基因表达数据的聚类分析和基因调控关系的分析两个方面入手,提出了两种改进的聚类算法和两种基因调控关系分析的数据挖掘模型:  (1)在深入探讨基于密度聚类分析的原理基础上,通过引入最小生成树理论,提出了基于密度与最小生成树理论的基因表达数据聚类方法,解决了密度聚类算法受初始值影响,聚类结果不稳定的问题和聚类个数如何确定的问题。并对实际应用进行了实验验证。  (2)介绍了基于小波去噪的基因表达数据的模糊聚类方法,并通过实验进行了聚类结果对比,证明去噪后聚类的结果明显优于直接聚类的结果。  (3)提出了基于功率谱估计方法的基因表达调控关系分析,初步构建出基因之间的调控网络,较好地挖掘出了基因之间的延时调控关系。  (4)提出了基于连续动态贝叶斯网络的基因调控网络的构建方法。通过组合基因表达数据和位点数据,利用连续的DBNs模型,引入处理多时延调控的方法。避免了离散化带来的信息丢失,解决了单一数据带来的困难,同时也减少了计算的复杂性,有利于对生物调控机理的进一步理解。
其他文献
本研究旨在从理论与数值上探讨非线性抛物型参数系统的最优控制及参数辨识问题.  从60年代开始,法国的J.L.Lions和他的学派,对线性系统的控制理论的研究,主要以偏微分方程所描
学位
随着我国的科学技术的不断提升,在我国的各个领域当中对于广播传输天线的无线电技术的应用范围不断扩展,为了能够进一步提升我国的广播传输天线技术的有效性,对中波广播传输
黑板结构,最初是从语间理解系统(HEARSAYII)中发展来的.后来应用于许多不同的 领域和环境中来设计系统.概括地说,黑板结构是由HEARSSAYII的典型结构发展精炼得来.在这篇文章
该论文针对研究课题,从五方面展开论述.第一部分是论文的引言,介绍了论文的选题背景及国内外研究现状.第二部分是电子商务简介,阐述了电子商务的定义、体系特征、安全技术、
本文通过对荣华二采区10
期刊
随着集成电路集成度和复杂度的提高,嵌入式存储器在片上系统芯片(SoC)上占有越来越多的比重。由于嵌入式存储器中晶体管密集,存在高布线密度、高复杂度和高工作频率等因素,很
ATM技术作为B-ISDN的基础,在传输包括语音、图像、数据的综合业务环境中具有现 有其它网络技术所不具备的技术优势.在局域网或校园网中应用ATM技术越来越成为一种趋 势,ATM是
企业的发展离不开经济财务的支撑,为了保障企业能够正常运作,实现经济效益最大化,就必须重视财务管理部门的工作.但目前有些企业经济管理发展存在一些问题,导致其在企业中无
学位