基因启动子序列模式建模与发现

来源 :天津大学 | 被引量 : 0次 | 上传用户:guoln
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
启动子序列模式的建模与发现是基因表达与调控组织特异性模式发现的核心。研究表明,综合多个模式发现工具的结果覆盖度较高,但是需要消除冗余。目前,在消除模式冗余中缺乏变长模式的定长建模、高质量的模式相似性度量。针对上述问题,本文提出了变长模式的定长建模方法、基于概率的模式相似性度量以及无融合相似模式的层次聚类模式发现,提高了消除模式冗余的效果。针对模式长度可变的问题,本文在综合考虑了模式的位置信息量和双碱基依赖性的基础上,分别对二者进行特征提取,从而实现对模式建模的目的。模式上一个位置的信息量是指能描述这个位置重要度的信息,信息量越高表明这个位置的重要性越大。研究表明,不同位置上的碱基之间存在着相互影响,并且高保留的位置倾向于聚集到一起。本文基于来自JASPAR数据库的模式的分类分析,对两种建模方法进行了比较分析。为了提高模式相似性的计算,本文综合考虑了两个模式来自相同源分布的概率和来自独立源分布的概率,提出了基于概率的相似性度量。本文对分别具有25个类别的两组模拟数据集进行分类分析,实验结果表明基于概率的相似性度量在两种模式建模方法上的表现都是最好的。针对聚类分析过程中融合相似模式导致模式上碱基分布趋向于均匀分布的不足,本文提出无融合相似模式的层次聚类模式发现。同时,本文还针对聚类过程中的关键问题提出了解决方案:聚类质量评分函数;聚类族代表样本的选择;序列扫描匹配评分函数。本文首先综合上述关键技术对两种聚类方法进行实验比较,然后结合两组具有25个类别的模拟数据集对聚类质量评分函数进行分析评价,最后展示了来自人体心肌细胞的76个组织特异性基因产生的1417个模式的聚类分析结果,通过聚类得到38个冗余度低的候选模式。对于结果集,本文首先利用在线工具STAMP对结果进行与已知模式匹配度分析,然后利用来自人体的2852个组织特异性基因和13275个GO词汇对聚类得到的38个模式进行功能映射分析。并且,在每个方法结果集中出现频率前10的GO词汇的重合度达到60%,足以说明方法的可靠性。通过分析已有消除模式冗余方法的不足,本文提出了变长模式的定长建模方法、基于概率的相似性度量,提高了消除模式冗余的效率和质量。通过实验发现,本文提出的消除模式冗余方法得到的结果中部分是现存在的模式,得到的GO词汇绝大部分与心肌或细胞功能相关,表明结果具有一定的可信度。
其他文献
在信息时代,数据是企业重要的资产,防范数据资产泄漏是意义重大的课题。本文立足于数据防泄漏保护的研究,旨在构建一个检查文件安全性的有力工具,阻止敏感数据的泄漏。为此,
本文探讨了应用基于种群交叉策略遗传算法对无线传感器网络布局进行优化。无线传感器网络(Wireless Sensor Network WSN)是由一组低成本,低功耗,多功能和小规模的传感器节点组
数据链路通信是对物理层的通信传输进行原始比特流功能的加强,将物理层提供的可能出错的物理连接改造成为逻辑上无差错的数据链路。本文的选题主要是在数据链路通信的基础上进
无线Mesh网是一种多跳、高速率、大容量的新型无线网络结构。它融合了无线局域网和移动Ad hoc网络的特征,是“最后一公里”宽带理想的接入方案。作为下一代无线通信网络宽带理
特征提取是模式识别所研究的关键问题之一,其基本任务是寻求对分类尽可能有效的特征。在监督的特征提取方法中,线性判别分析(LDA)具有代表性,并已在人脸识别、文本分类、信息检索
基于三维人体运动数据的情感识别是一个崭新的人体运动学与模式识别的交叉课题,该技术的研究目前尚处于起步阶段。本文对该技术进行了深入的探索与研究,包括人体运动建模、Peri
数字化、高清晰度、可连接网络、自带操作系统的智能电视成为了下一代电视的发展趋势。虽然智能电视与传统电视有许许多多的不同,但智能电视在提供新功能的同时也需要支持传统
随着电子政务信息化进程的推进,电子政务的优势凸显,对比传统政务方式,工作效率有了极大的提高,但是因为初期建设时缺乏统一规划,各个业务系统间不能相互沟通交流,形成了一个个的“
互联网中海量的非结构化信息包含丰富的语义内容,对其进行语义分析具有重要的意义。语义分析的对象主要有文字、图像和图像中的文字。微博是当前流行的社交网络,其中包含大量的
近年来,从海量数据中学习出数据的潜在特征层次已成为机器学习领域中的热点,深度学习就是旨在解决这一问题的一种无监督学习方法。随着深度学习的广泛应用,其构成基础——玻尔兹