论文部分内容阅读
启动子序列模式的建模与发现是基因表达与调控组织特异性模式发现的核心。研究表明,综合多个模式发现工具的结果覆盖度较高,但是需要消除冗余。目前,在消除模式冗余中缺乏变长模式的定长建模、高质量的模式相似性度量。针对上述问题,本文提出了变长模式的定长建模方法、基于概率的模式相似性度量以及无融合相似模式的层次聚类模式发现,提高了消除模式冗余的效果。针对模式长度可变的问题,本文在综合考虑了模式的位置信息量和双碱基依赖性的基础上,分别对二者进行特征提取,从而实现对模式建模的目的。模式上一个位置的信息量是指能描述这个位置重要度的信息,信息量越高表明这个位置的重要性越大。研究表明,不同位置上的碱基之间存在着相互影响,并且高保留的位置倾向于聚集到一起。本文基于来自JASPAR数据库的模式的分类分析,对两种建模方法进行了比较分析。为了提高模式相似性的计算,本文综合考虑了两个模式来自相同源分布的概率和来自独立源分布的概率,提出了基于概率的相似性度量。本文对分别具有25个类别的两组模拟数据集进行分类分析,实验结果表明基于概率的相似性度量在两种模式建模方法上的表现都是最好的。针对聚类分析过程中融合相似模式导致模式上碱基分布趋向于均匀分布的不足,本文提出无融合相似模式的层次聚类模式发现。同时,本文还针对聚类过程中的关键问题提出了解决方案:聚类质量评分函数;聚类族代表样本的选择;序列扫描匹配评分函数。本文首先综合上述关键技术对两种聚类方法进行实验比较,然后结合两组具有25个类别的模拟数据集对聚类质量评分函数进行分析评价,最后展示了来自人体心肌细胞的76个组织特异性基因产生的1417个模式的聚类分析结果,通过聚类得到38个冗余度低的候选模式。对于结果集,本文首先利用在线工具STAMP对结果进行与已知模式匹配度分析,然后利用来自人体的2852个组织特异性基因和13275个GO词汇对聚类得到的38个模式进行功能映射分析。并且,在每个方法结果集中出现频率前10的GO词汇的重合度达到60%,足以说明方法的可靠性。通过分析已有消除模式冗余方法的不足,本文提出了变长模式的定长建模方法、基于概率的相似性度量,提高了消除模式冗余的效率和质量。通过实验发现,本文提出的消除模式冗余方法得到的结果中部分是现存在的模式,得到的GO词汇绝大部分与心肌或细胞功能相关,表明结果具有一定的可信度。