论文部分内容阅读
酵母是常用的模式生物,对其细胞周期的研究常用作多真核细胞的参考。细胞周期是生物体的重要功能过程,细胞周期的正常进行是生物体正常发育和繁殖的基础。真核细胞的细胞周期是指细胞在特定的时间启动特定的功能,这个过程的调控是一个复杂的调控体系,其中涉及众多功能各异的蛋白和酶。基因芯片技术的发展使得从全基因组水平检测细胞周期过程的基因表达状况成为可能,这将有利于研究细胞周期过程中整体的基因活动情况,进而探讨细胞周期的调控体系。文中使用的数据来源于cdc28同步的384个酵母周期基因表达微阵列,这些表达数据跨越两个细胞周期,每次采样间隔为10分钟,共有17个采样点。通常时序基因表达数据存在大量的噪声,这些噪声的存在对后续的建模分析有重要的影响。对于聚类而言,它们会影响聚类算法的效率和聚类结果的精确性,因此在进行数据分析之前通常要进行降噪处理。由于基因时间序列通常样本点少、较短的持续时间、极端非线性和非平稳,本文中我们采用一种新的去噪方法——小波变换。
文中我们使用了三种聚类方法包括K-means、层次聚类和SOM网络聚类来聚类时序基因表达数据,通过比较小波去噪前和去噪后的聚类结果,我们可以得出如下结论:小波变换去除了时序基因表达数据的噪声,聚类效果得到改善,这表明了小波变换是一种好的去噪方法,适应于基因表达时间序列。同时经过小波去噪后的周期表达基因聚类结果可以用来进一步研究基因的具体功能信息,或者从这些周期表达基因出发构建细胞周期调控网络,进而从更高的层面认识细胞周期过程的分子机制。
本文是一次对小波去噪应用于时序基因表达数据的一次尝试,小波去噪及其后续聚类算法产生实际生物学意义的改变还有待于进一步的研究,例如进一步的工作我们可以将提出的小波去噪聚类算法应用到更多实际的数据集以查看效果。