论文部分内容阅读
研究目的:内源小分子代谢物浓度水平的变化为恶性肿瘤诊断和化疗敏感标志物的研究提供了丰富的信息。从生物学上看,首先是DNA(基因组)被转录为mRNA(转录组),然后由核糖体对mRNA进行翻译产生蛋白质(蛋白质组),最后蛋白质被催化成各类代谢产物(代谢组)。通过代谢组数据,可以研究机体在外界刺激或基因改变的影响下随时间变化的代谢模式特征,辨识和解析被研究对象的生理和病理状态。然而,目前能够解析的物质仅占所有代谢产物的5~10%,更具挑战性的工作,是进一步确认所有代谢物的功能,需要研究与肿瘤相关的各种物质的代谢关系网络。为此本研究给出一种基于随机森林和网络解卷积优化算法的网络构建方法,该方法利用回归树和随机森林(RF)回归方法内嵌的变量排序机制以及解卷积构建任意两变量的关联矩阵,通过将其分解为具有直接关联和各种长度间接关联的矩阵之和,从而识别出网络中的直接相关性,移除由于级联效应而产生的间接相关性边,构建网络揭示变量之间隐含的信息。 研究内容:根据随机森林、网络解卷积的原理和特点,提出基于随机森林回归的构建网络方法基础上联合网络解卷积算法(RF-ND)进行优化,并确定基于随机森林回归以及联合网络解卷积算法的适用条件;通过设定网络变量间具有线性及非线性关系以及网络结构的复杂程度,探索基于RF回归以及联合ND的RF-ND算法构建网络的有效性;建立宫颈癌早期诊断及化疗敏感性的血浆代谢物的相关网络,并对其进行生物学解释,确定宫颈癌早期诊断及化疗敏感性的血浆生物标志物和相关代谢通路。 研究结果:本研究提出了一种基于随机森林、网络解卷积优化(RF-DN)算法,该方法不仅能够保证基于随机森林的原理构建出较为理想的网络,而且在网络结构复杂的情况下,通过网络解卷积优化算法移除网络中间接效应边,提高构建网络的准确性。 模拟实验表明RF对于预先设定的具有线性相关网络关系的识别能力明显优于贝叶斯方法,其中发现且随着样本含量的增加基于随机森林构建的网络准确性不断提高,但传统经典的贝叶斯方法效果基本保持不变。基于随机森林回归构建的网络针对变量之间存在非线性相关关系时识别效果明显优于贝叶斯方法。此外模拟试验结果表明当网络中变量少且结构相对简单的情况下,使用网络解卷积优化算法后的随机森林网络构建方法与单纯基于随机森林算法效果近似;但当网络结构中具有较多变量且数据结构复杂时,经过网络解卷积优化后能够明显提升网络构建效果。 宫颈癌早期诊断血浆代谢组学研究结果表明宫颈癌与卵巢癌、正常对照之间存在代谢模式差异,经单变量和PLS-DA分析筛选后确定了正负离子模式下共计382个差异变量,经过进一步的数据库查找和二级物质鉴定,确定了其中35种差异代谢物。本研究利用已经确定的35种差异代谢物为基础,利用本文提出网络构建方法建立了代谢网络,并通过数据库信息和文献报道确定了网络的合理性。本研究推测出的宫颈癌代谢相关网络,其中部分关系已经确定证明了该方法的有效性,其余未知的代谢通路和功能需通过生物学实验进一步验证。 宫颈癌化疗敏感性血浆代谢组学研究结果表明敏感患者、中度敏感患者与轻度敏感患者之间具有明显的代谢模式差异,经单变量和PLS-DA分析筛选后确定了正模式下10个差异代谢物。基于本文提出的方法构建的代谢网络经文献报道验证具有合理性,为宫颈癌化疗敏感性机制研究及个体化治疗提供了参考依据。 研究结论:通过模拟实验和实例说明基于随机森林回归联合解卷积优化算法能够保证较好的网络重建效果。基于血浆代谢组学能够准确地区分宫颈癌与卵巢癌/正常对照,宫颈癌患者的血浆中代谢物相关网络提示其代谢通路变化,其发病可能与脂类代谢、色氨酸代谢、氨基酸代谢等密切相关。另外,基于血浆代谢组学能够区分宫颈癌化疗敏感与非敏感患者,其血浆代谢物的变化提示宫颈癌化疗敏感性与氨基酸代谢、脂类代谢及二肽代谢等紧密相关,为物质鉴定与个体化治疗提供了线索及依据。