论文部分内容阅读
蛋白质接触图描述了蛋白质中不同残基之间的空间距离关系,包含了丰富的蛋白质结构信息。因此,蛋白质接触图预测是蛋白质结构研究领域的一个重要方向,对深入理解蛋白质功能和促进蛋白质结构的合理设计具有重要意义。目前,蛋白质接触图的预测方法主要包括基于结构的预测方法与基于序列的预测方法。基于结构的预测方法依赖于蛋白质模板结构对接触图进行预测,在实践中存在较大的局限性。而基于序列的预测方法可直接利用蛋白质序列进行蛋白质接触图预测,不依赖于蛋白质结构信息,因此近年来受到广泛关注。大多数基于序列的预测方法利用经典机器学习算法对蛋白质接触图进行预测,虽然取得了较大的发展,但难以有效地学习大规模数据样本中的残基接触模式。而深度学习能够自动地学习大量训练数据中的高层次特征,实现对数据的抽象表达,非常适用于蛋白质接触图预测。因此,本文首先提出一种基于残差U-Net的蛋白质接触图预测方法RUcon,并在此基础上进一步提出了基于生成对抗网络的预测方法GANcon,具体研究内容如下:1、本文提出一种基于残差U-Net的蛋白质接触图预测方法RUcon,将残差网络与U-Net中的编码器和解码器结构相结合,可以有效提取和融合不同层级的特征,同时避免了网络层级加深所带来的性能下降问题,从而可以充分捕获残基接触相关的重要信息并对蛋白质接触图进行精确的预测。多个性能指标上的评估结果表明,RUcon能够取得准确的蛋白质接触图预测结果,其预测性能优于单独的残差网络和U-Net。2、为了进一步提升预测性能,本文在上述工作的基础上引入对抗学习策略,提出了基于生成对抗网络的蛋白质接触图预测方法GANcon。该方法将RUcon作为生成网络用于生成蛋白质接触图,设计用于区分生成和真实的蛋白质接触图的判别网络,并通过生成网络与判别网络之间的对抗学习促使生成网络产生与真实的蛋白质接触图高度相似的蛋白质接触图。同时,针对数据集不平衡的问题和蛋白质接触图对称的特点,提出可用于优化对抗学习的对称焦点损失函数。实验结果表明,GANcon的预测性能大幅超过了 RUcon,同时与现有基于深度学习的蛋白质接触图预测方法相比也十分有竞争力。