论文部分内容阅读
蛋白质相互作用网络在细胞生命中起着非常关键的作用,当前蛋白质组学研究的一个首要任务即是构建整个细胞的蛋白质相互作用网络。所以无论是实验的方法还是计算的方法,准确的鉴定、预测蛋白质间的相互作用对当前蛋白质组学的研究都是非常重要的。
本文首先基于蛋白质结构域共现信息,采用半朴素贝叶斯模型对蛋白质间的相互作用进行预测。蛋白质对间的域信号共现信息可用来判定两个蛋白质间是否有相互作用。前人的研究中只关注单独的域信号对是否共现来作为判定的依据,我们借助半朴素贝叶斯模型挖掘到那些在同一个蛋白质内共现度较高的域信号对,以及在不同的蛋白质间共现度较高的域信号对。借助这些共现信息来预测蛋白质问的相互作用提高了预测的准确度。在10-折交叉实验中达到了的83.12%灵敏度和73.23%的特异度。
由于很多蛋白质的结构域信息不被其他蛋白质所共有,这就限制了半朴素贝叶斯模型的应用和推广。于是我们提出利用蛋白质的亚细胞和功能定位信息来对蛋白质间的相互作用进行预测。用包含蛋白质亚细胞和功能定位信息的特征向量来编码蛋白质,得到一个高维的稀疏向量。结合这种类型的向量和亚细胞、功能定位本身的生物学意义,我们提出了四种编码方式。四种编码方式都从不同的侧面去反映了每一维亚细胞、功能定位的信息。基于这四种编码方式,我们实验了随机森林、决策树、支撑向量机(SVM)、朴素贝叶斯、k近邻(k-NN)等多种分类器。其中随机森林算法表现出了更好的分类效果和鲁棒性。95.1%的特异度和77.5%的灵敏度表明我们的实验方案在蛋白质相互作用问题中有很好的应用前景。我们还验证了对于蛋白质相互作用预测,亚细胞和功能定位两者的重要程度,结果表明蛋白质功能定位更能决定蛋白质间的相互作用。
蛋白质质谱技术可用来对蛋白质进行鉴定,它具有相对便宜的成本和微创伤的实验代价。已经广泛的应用于癌症早期诊断的生物标记物发现,定量预知药物的疗效等领域。利用蛋白质质谱数据进行癌症预测可以为癌症的早期诊断和治疗提供依据。
针对蛋白质质谱数据具有高维度、低样本量的特点,本文采用偏最小二乘法对基于蛋白质质谱数据的癌症预测问题进行研究。偏最小二乘方法是一种新型的多元数据统计分析方法,它有回归建模、数据结构简化以及两组变量之间相关性分析三种特性。81.76%的灵敏度和71.25%的特异度表明偏最小二乘法在基于蛋白质质谱数据的癌症预测问题中具有较好的分类效果。我们还采用了四种特征选择的方法:t检验、显著性微阵列分析、统计量分析和主成分分析,来对数据降维,挖掘数据内在的信息。实验结果表明t检验和统计量分析方法有较好的数据降维效果。