论文部分内容阅读
近几十年来,生物医学领域积累了大量的数据。一方面,基因、蛋白质、RNA、代谢物等分子级别的数据在还原论的指导下得到了大量积累。另一方面,医案、病例等临床数据也飞速增长。巨大的数据对于研究者来说既是机遇又是挑战。如何从海量的生物医学数据之中挖掘出可以指导生物医学探索的有价值的知识,一直吸引着研究者的目光。知识发现是发挥这些数据价值的有效途径,它能够利用生物医学领域已知的知识预测未知的知识。与此同时,研究者越来越清晰地意识到生物系统的复杂性,其中的组分很少单独作用,组分之间往往存在着错综复杂的相互作用关系。生物网络作为一种关联网络,很适合用来表现生物系统的复杂性。生物网络对生物医学数据的描述更加灵活、丰富和形象,其中蕴含的拓扑性质也有利于我们挖掘更深层次的知识。正因为此,生物网络逐渐成为生物医学领域的热点研究对象之一。 本文在生物网络的数据基础之上,从知识发现中数据挖掘这一核心步骤出发,针对中医药领域中的实际问题进行了研究,以挖掘有价值的知识,推动中医药的现代化发展。我们的研究主要针对的是药物和疾病相关的问题,主要的研究工作包括: (1)针对中药成分众多机理复杂的特点,我们提出了基于通路模式的药物有效成分预测方法。通过关联映射和双向关联规则挖掘,在生物通路层面提取了通路模式,进而设计得分函数评价基因的重要性与化合物的有效性,并预测潜在的有效成分。以麻杏石甘-银翘散为例,分子对接实验验证了算法的有效性。最后,我们构建了有效成分-基因靶标关联网络,阐释中药方剂多成分多靶标的作用机理。 (2)从中医临床病例样本出发,我们提出了基于不平衡SVM的中医证候分析双层方法。在定量层面,根据信息增益筛选关键症状,并通过样本合并削弱样本不平衡对SVM模型超平面的偏置影响。以脑中风风痰瘀阻证为例,通过与其他算法的对比,验证了定量诊断模型的有效性。在定性层面,通过表型-基因-生物通路映射关系构建关键症状-基因-通路模式多层关联网络,解释关键症状的作用机理。 (3)在药物-疾病关联关系预测的问题上,我们引入基因空间,提出了基于基因空间的矩阵分解方法。通过特征值分解,我们从基因关联网络中提取拓扑信息。根据药物-基因关联关系与疾病-基因关联关系将拓扑信息融入药物、疾病的表征向量之中,进而构建矩阵分解模型并进行寻优。通过实验验证了引入基因空间的作用,同时与其他算法的对比也证明了算法的有效性。与大多数基于药物、疾病特征属性的预测模型不同,我们的模型主要依靠关联数据来进行预测,这使得我们的模型克服了收集药物和疾病特征数据过程中费时费力、经验知识缺乏的问题,提高了预测的效率。 最后,基于以上研究成果,开发了一套基于生物网络的中医药领域知识发现应用系统。该系统集成了方剂有效成分预测、中医证候诊断模型和潜在药物-疾病关联关系预测等功能,可以系统性地帮助中医药研究者发现隐藏在生物医学数据之下的有价值的知识,有助于中医药领域的发展。