论文部分内容阅读
目的:利用代谢组学研究卵巢癌早期诊断生物标志物具有重要意义,对此目前主要是通过分析代谢组质谱数据筛选生物标志物。本研究则是通过卵巢癌代谢组色谱数据分析,充分利用时间序列自相关信息,提供重要的低浓度代谢物信息及其保留时间的位置,并对质谱数据进行定位,有针对性地对某一段保留时间的质谱数据进行分析,筛选出具有卵巢癌特异性的潜在生物标志物。 内容:代谢组数据不能直接提供显性的生物学知识,需要运用各种信息处理技术和统计学方法,从数据中提取有用的信息。本项目设计将色谱图转换成二维连续小波系数图像进行分析,即通过特定的小波基函数将卵巢癌患者与正常对照样品的色谱图转换成二维小波系数图像,通过色谱图像的研究获得预处理信息,再结合质谱数据进行分析,以获得更多更丰富的生物信息。研究的具体内容包括:小波基及参数的选择、小波多尺度变换、小波系数图像转换算法、小波纹理特征提取算法、图像锐化特征提取算法。最后要重点分析卵巢癌代谢组数据,获得难以单纯用质谱数据分析得到的低浓度生物标志物信息。 方法:通过连续小波变换,获得小波尺度系数矩阵,首先采用一维小波分析方法,研究其有效性;进而,将色谱数据类型转换为具有位置特征的二维图像,通过不同子矩阵分割,采用三种不同特征提取方法获得特征向量;再通过设置不同的参数构造不同的Gabor小波变换滤波器,以及五种增强图像边缘和轮廓的锐化方法,实现图像纹理特征提取。模式识别及特征筛选采用随机森林(RF)方法。上述方法的有效性通过卵巢癌数据分析进行验证,结果的生物学解释利用HMDB、Melin和KEGG代谢组生物功能数据库查询。程序编写使用Matlab和R语言。 结果:主要结果如下: ●通过一维离散小波与连续小波变换获得色谱数据新的特征,能够提高数据的分类效果。离散小波变换后分类效果优于原始色谱数据,同一小波基的连续小波变换优于离散变换,不同尺度的连续小波变换有不同的分类效果。利用Mexh小波函数对色谱峰数据进行不同尺度小波变换能够提取色谱峰不同的重要特征。 ●应用Gabor小波滤波器对卵巢癌色谱小波系数图像特征提取,采用RF模式识别和交叉验证方法验证,比原始数据的分类效果有明显提高。分类效果和提取的特征与滤波器参数选择有关,当参数设置不同的频率和方向时,筛选出的特征不同,因此可以通过改变参数的方法为后续的质谱数据分析提供不同的位置信息。 ●将卵巢癌代谢组色谱数据进行Mexh小波基函数二维多尺度变换,获得小波系数图像。通过水平垂直差分法计算图像的梯度值,并结合5种不同的图像像素值输出方法,从不同的角度增强图像某个边缘以及轮廓特征。图像锐化后分类判别效果要优于原始色谱数据的结果,而且能够表现图像不同的边缘及轮廓,提取不同的特征。 ●利用Mexh小波基函数对卵巢癌代谢组色谱数据进行二维多尺度变换,获得小波系数矩阵。以10×8为子矩阵对每一样品系数进行分割而获得新的特征向量。用RF模型筛选特征,按照筛选的特征位置进行定位,最后对这一段保留时间内的质谱数据进行重点分析,筛选出20种卵巢癌的低浓度潜在生物标志物,推测出8种代谢物质的化学结构,其中经过标准品验证确定了2-哌啶酮这一新发现的卵巢癌生物标志物。 ●应用Gabor滤波器对卵巢癌代谢组小波系数图像提取纹理特征,用RF模型筛选分类能力较强的特征。通过保留时间对质谱数据定位,筛选出了与上一种方法不一样的生物标志物,推测出8种代谢物质的化学结构。 ●应用图像锐化的方法对子宫肌瘤与卵巢癌色谱数据提取小波系数图像特征。通过对质谱数据定位,筛选出20种潜在生物标志物,推测出6种代谢物质的化学结构。 结论:基于小波变换的代谢组特征提取方法不但能够提高数据的分类能力,而且能够提取色谱数据的不同特征,为常规的质谱数据分析提供重要的信息。