论文部分内容阅读
外显子是真核生物脱氧核糖核酸序列重要的功能区,准确地定位外显子区有利于理解蛋白质的结构与功能。真核生物包含长度为几个到几千个不等碱基对的外显子,而且较大比例外显子的长度都很小(<200碱基对)。鉴于短外显子缺乏明显的特征,因此寻找准确可靠的方法以自动确定短外显子的长度和位置显得尤为重要。而且准确定位基因组中外显子有利于设计药物与疾病治疗。例如,既往研究表明一些短外显子的突变在肿瘤侵袭的各个环节有着重要的作用。因而,识别短外显子仍然是一个开放性的问题。 目前,预测外显子的方法大致可以分为两类:独立模型方法和依赖模型方法。依赖模型方法利用先验的基因组信息或者是在分析阶段通过训练分类器学习模型,独立模型方法不需要假设任何先验的信息来训练模型或估计参数。本文根据外显子与内含子信号的小波变换系数在相邻尺度之间的传播特性,利用B样条小波多尺度积来实现短外显子的预测,记为MP方法。该方法属于独立模型范畴。 MP方法首先计算了外显子与内含子的小波系数在相邻尺度的Jensen-Shannon距离,发现相邻尺度上内含子信号的小波变换系数相关性比外显子弱。根据外显子与内含子小波系数在相邻尺度间存在的不同相关特性,通过将相邻尺度的小波系数相乘以增强外显子信号,抑制内含子噪声,进而实现对短外显子的准确预测。数据集HMR195和BG570是评估外显子预测方法性能的通用数据集,且这两个数据集中短外显子具有较高的比例。本文利用这两个数据集对MP方法在预测短外显子的预测性能进行评估,与现有五种独立模型方法相比,MP方法对长度范围(0,24]、[25,49]、[50,74]、[100,124]、[125,149]、[150,174]、[175,199]、[200,299]和[300,300+]外显子的探测准确率分别至少有26.8%、9.5%、8.2%、3.5%、10.2%、4.5%、7.8%、10.0%和4.4%的提高。 基于MP的方法对短外显子进行预测的优点主要体现在两方面:(1)设计了一种新的B样条小波函数,在多尺度域提取外显子的周期三成分;一方面消除了窗口长度对预测结果的影响,另一方面该小波函数具有较高的曲线编辑自由度;(2)探索短外显子在B样条小波变换域在各相邻尺度的空间相关性,这些相关性特征有利于显现传统检测方法无法观测的潜在信息;(3)采用正向与反向结合的成对数值表示方法计算输出值,不仅反映了DNA的真实结构,而且提高了计算效率。