论文部分内容阅读
蛋白质(protein)是一切生命活动的物质基础,一切重要的生命现象与生理机能都与蛋白质息息相关,蛋白质组学是生物信息学一个重要研究分支,通过该分支的研究,人类可以更加深入了解生命过程的本质,从源头上对疾病的预防与治疗获得理论依据,进而提高人类生活质量,因此受到各国政府和众多学者重视。随着基因工程进入后基因组时代,蛋白质组学成为生物信息学主要的研究方向。作为由大量氨基酸通过复杂化学过程形成的生物大分子,蛋白质具有复杂的结构与功能,这些功能本质上由氨基酸残基通过不同结合方式与相互作用实现,二硫键作为维持蛋白质结构与功能稳定的蛋白质重要特征,其氧化状态与连接模式具有较大研究价值。近年来,蛋白质测序技术得到突飞猛进的发展,蛋白质数据呈现爆炸式增长,需要测定的二硫键数目也随之爆炸式增长,通过传统的生物学方法检测二硫键,不仅成本巨大,而且需要耗费大量时间,因此,通过智能算法快速而精确预测二硫键是当务之急,近年来,机器学习的方法已被广泛应用到二硫键预测中,仅就二硫键连接模式而言,不同的半胱氨酸对具有成键与非成键两种状态,这是典型的二分类问题。前人的实验研究大多通过特征提取,特征选择,并最终通过分类模型预测半胱氨酸的状态与连接模式。本文研究二硫键连接模式时,将特征分为氨基酸残基特征,半胱氨酸对特征与全局特征,通过将特征分组进行对比试验找到对预测最有利的特征集。在进行特征选择时,首先通过计算单个特征得分(包括方差得分,费舍得分,拉普拉斯得分)选择有代表性的特征,将这些特征进行相关性选择,将最终选择的特征利用多个不同的分类器进行二硫键连接模式的预测。与前人相比,本文在特征选择时进行了相关性选择。本文算法与数据集可在https://github.com/snep5021/Disulfidesprediction获取。