论文部分内容阅读
在后基因时代,随着生物信息学的发展,高通量技术产生了大量有效的生物数据,使得通过计算手段系统分析蛋白质的功能、结构、相互作用以了解生物体的生命进程,成为了蛋白质组学的研究重点。尤其是,蛋白质相互作用网络中蛋白质功能模块和关键蛋白的挖掘对解释特定的生物进程、揭示生物体生命特征具有重要意义。近年来,虽然蛋白质复合物和关键蛋白的研究取得了突破性进展,但由于蛋白质相互作用网络具有小世界无尺度特征、数据噪音大,以及识别算法本身的局限性,导致识别准确率仍然比较低。群智能优化算法是一种启发式仿生生物算法,能很好地解决优化问题,同时也为蛋白质功能模块的识别和关键蛋白的识别提供了新的视角。本文在蛋白质复合物的预测上,主要使用群智能算法来优化传统聚类算法,或者构建模拟群智能优化过程的聚类模型,以提升检测准确率。在关键蛋白识别上,通过结合群智能优化算法的优化特性和蛋白质的拓扑特性以及蛋白质对应的基因表达值来提升检测准确率。本文主要工作如下:(1)针对密度聚类算法DBSCAN参数选取困难的缺陷,提出了改进的密度聚类算法并用于蛋白质功能模块的挖掘。通过群智能优化算法中的鸽子优化算法动态调节DBSCAN邻域半径和最少邻居结点数这两个参数,使其达到最优状态以优化聚类结果。试验结果表明,优化后的算法识别的蛋白质功能模块准确率有很大提升。(2)针对基于核心-附件结构的蛋白质复合物识别算法中核心与附件的匹配不确定性,提出了模拟果蝇觅食优化过程进行蛋白质功能模块识别的算法。将果蝇看作附件蛋白,核心簇看作食物位置,果蝇优化过程使每个附件蛋白找到自己最合适的核心簇,以形成更准确的蛋白质复合物。试验结果表明新的聚类模型比传统的基于核心-附件结构的聚类算法能够更准确的识别蛋白质功能模块。(3)针对传统聚类算法不能同时考虑蛋白质相互作用网络的全局性和局部性问题,提出了模拟鸽子优化过程进行蛋白质功能模块识别的算法。通过鸽子算法既能全局搜索又能局部搜索的特性在蛋白质网络上通过先全局搜索再局部搜索以形成更准确的蛋白质复合物。试验结果表明新的聚类模型比传统的聚类方法能够更准确的识别蛋白质功能模块。(4)目前大多数关键蛋白质识别方法都是孤立或者零碎地使用少数参数或特征分析关键蛋白质,对于结点缺乏从整体和全局上的把握。针对这一缺陷,提出了使用人工蜂群优化算法识别关键蛋白的算法。该方法结合关键蛋白的先验知识、蛋白质网络的拓扑特性、基因表达特征和人工蜂群的优化特性,进行关键蛋白识别。先通过采蜜蜂和跟随蜂的二级局部搜索寻找新蜜源,当找不到最优新蜜源时使用侦查蜂全局搜索寻找新蜜源。实验结果表明,优化后的关键蛋白识别算法比传统的算法性能更好。