论文部分内容阅读
Polycomb group(PcG)蛋白复合体作为一组通过染色质修饰而抑制靶基因表达的调控因子,在胚胎发育和干细胞分化中具有重要的作用。PcG蛋白由两个核心蛋白复合体Polycomb repressive complex1(PRC1)和Polycombrepressive complex2(PRC2)组成。目前,对哺乳动物中PcG调控机制和染色体招募机制的了解还很有限,识别PcG蛋白全基因范围的靶基因对PcG基础调控机制的研究至关重要。本文应用基于支持向量机(Support Vector Machine,SVM)的Mapping-Convergence(M-C)算法,结合组蛋白修饰特征和序列特征,构建了人类胚胎干细胞(hESCs)PcG蛋白靶基因的预测模型,模型预测得到3133个PcG蛋自的靶基因。通过三倍交叉验证评估发现该模型具有85.4%的平均预测准确率,而对阳性样本集的召回率达到89.2%。M-C算法不需要像传统SVM模型一样收集阴性训练样本集,并且预测结果在多次构建模型时有较传统SVM更高的重复度。通过对肝癌数据的评估,可以推测该模型在组蛋白修饰信息充足的情况下,也可以被推广到其它的细胞系的研究中。在构建模型的特征评估中,组蛋白修饰对模型的准确率和召回率都有较大的贡献,是PcG靶基因识别中的重要特征。接下来在分析这些靶基因时发现,与以往研究相一致,在hESCs到人类胚胎成纤维细胞(hFibCs)的分化中,PcG蛋白抑制了基因的表达,且这些受抑制基因与分化、发育功能相关。而PcG抑制机制与DNA甲基化在分化中以一种非冗余的方式调控转录。通过分析PcG靶基因在整合的蛋白质互作网络中的拓扑性质,发现PcG靶基因更趋于与其他基因互作。