论文部分内容阅读
基因芯片技术的出现使细胞生物学实验模式从传统的单个或少量基因研究跃变到全基因组的水平,是生物技术领域一次伟大的革新。为了找出隐藏在海量芯片数据中的客观规律,揭示生物体的奥秘,近年来人们尝试了多种数据分析方法来分析基因芯片数据,从传统的简单的排序到如今的人工智能。基因表达芯片数据分析作为基因芯片技术在实际应用中必不可少的步骤,是一个系统性的过程,其中每一步都需要详细的设计和谨慎的操作。基因表达芯片数据分析一般包括:芯片数据的预处理、寻找差异表达基因、聚类、基因集合分析、转录调控分析以及基因互作网络分析几个环节。其中,通过基因集合分析可以从芯片数据中直接提取反映生物体系功能变化的基因集合,对生物学研究和芯片检测技术的有效使用有重要意义。本文针对这个环节完成了两部分工作:(1)发展了一个基于基因网络拓扑结构中心性的基因集合显著性分析方法---CePa;(2)建立了一个实用的基因集合显著性分析平---CePa在线分析平台。 基于ORA的基因集合分析方法由于使用方便而被广泛应用于实验生物学研究,但分析结果的可靠性尚不令人满意。针对这一问题,本文引入网络结构因素,通过pathway水平统计量计算和网络中心性度量扩展了ORA方法,开发了一个新的基因集合分析方法CePa,用于寻找发生显著变化的生物途径。对实验芯片数据的分析显示,CePa比ORA方法能更有效地发现具有生物学意义的pathway。 本文还开发了一个在线的CePa基因表达芯片数据分析平台,CePa在线平台操作简单,只需进行简单的数据录入即可完成芯片数据的分析工作。CePa在线分析平台由客户端、网站服务器和计算服务器三大模块联合构建而成。客户端负责用户数据的输入和格式验证。网站服务器端负责用户数据的合理性验证以及将合理的数据以任务的形式提交给计算服务器。计算服务器通过队列的形式管理用户任务,利用队列先入先出的特性,对用户任务进行公平的排队计算。同时,计算服务器采用了并行运算的编程策略,通过多进程的形式对正在计算的任务进行多核同时运算,极大的提高了运算速度。R语言出色的绘图功能将用户结果绘制能形象直观的结果图,方便用户的查阅。