论文部分内容阅读
后基因组时代,高通量数据的产生和分析是生物信息学研究的重要任务。其中,基因调控网络的研究有助于在分子层面上揭示基因型和表型之间的关系,为疾病的早期诊断和治疗、预防和预后提供有效的分析策略和技术支持。本文选择大脑皮层微阵列基因表达数据为分析对象,以发现和预测基因之间的相互关系,特别是基因转录调控关系为目的,利用大脑皮层基因表达数据构建和分析基因调控网络。具体内容如下:
⑴处理大脑皮层基因表达数据,包括2方面工作,即基因芯片数据的预处理和基因表达数据的聚类分析。本文利用R语言平台和Bioconductor项目中的微阵列数据预处理相关包,提出针对寡核苷酸基因芯片数据的预处理方法,将探针水平的大脑皮层基因表达数据转换成基因表达数据矩阵,有助于大脑皮层基因表达数据的进一步分析。大脑皮层基因表达数据的聚类分析包括对基因表达数据样本的聚类分析和对基因变量的聚类分析。在对大脑皮层基因表达数据样本的聚类分析中,确定异常样本的定义和处理方法,去除大脑皮层基因表达数据中的异常样本。在对大脑皮层基因的聚类分析中,分析比较各种聚类方法产生的基因聚类效果,确定合适的聚类算法对大脑皮层基因进行聚类分析,确定相似表达功能大脑皮层基因簇。
⑵基于贝叶斯网络模型构建基因调控网络。通过聚类分析筛选出高度相关的大脑皮层基因簇,结合Biolearn软件进行基因调控网络的构建。通过选取不同的参数,分析不同评分函数和网络搜索策略构建的基因调控网络结果,确定最终的网络结构学习参数。通过贝叶斯网络结构学习参数的分析比较,本文选择基于BDe评分的贪婪爬山算法搜索策略对大脑皮层13个高度相关基因构建基因调控网络模型并对网络进行评分,得出评分最高的大脑皮层基因调控网络模型。
⑶对基因调控网络进行结构和功能分析。基因调控网络作为一个生物学复杂网络,不仅具有网络的结构特征,还具有生物学特征。本文利用局部依赖模型(DDN)分析比较大脑皮层不同样本集下基因调控网络结构特征,利用基因转录的时空特异性,确定差异局部网络结构中的基因“热点”。本文还利用已知的数据库(如DAVID,NCBI等)对大脑皮层基因调控网络中的转录调控关系进行功能性分析,确定基因调控网络的生物学意义。