多示例层次聚类算法在基因功能注释中的应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:hongyan1230
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因功能注释是基因组注释的一个重要研究方向。而在后基因组的时代背景下,基因组注释又是最主要的挑战。它的研究将为人们深入理解人类基因组遗传语言的逻辑构架,基因结构与功能的关系,个体发育、生长、衰老和死亡机理,神经活动和脑功能表现机理,细胞增殖、分化和凋亡机理,信息传递和作用机理,疾病发生、发展的基因及基因后机理(如发病机理、病理过程)以及各种生命科学问题提供共同的科学基础。然而面对海量的全基因组数据,只有借助机器学习的方法才能胜任。本文将采用多示例多标签的学习方法,进行基因功能的预测,主要的研究工作如下:首先,本文分析了基因表达的模式,并从其表达模式的特点对基因功能进行预测,详细分析介绍了基因功能注释数据库中基因功能之间存在的关系及关系之间的推导过程。针对基因功能注释数据库中这种多对多的基因与功能的对应关系,本文引入了多示例多标签的学习框架和基因本体论,并对多示例多标签的学习框架进行分析研究。其次,针对多示例多标签学习框架的剪枝策略会丢失基因之间相关性的问题,本文将层次聚类算法的思想加入到多示例学习框架中,提出了多示例层次聚类算法。该算法根据基因表达相关性的特点,将具有相似功能的基因的时序表达数据子集作为该基因功能的示例集合进行多示例构建。在计算多示例之间的距离时使用基因时序表达数据之间的皮尔森相关系数,并且在进行聚类约束时采用最大化各基因功能类中的基因相关性,使得基因之间的相关性信息能在聚类过程中得到很好的保留。最后,本文在酿酒酵母的四个基因时序表达谱中验证了算法的有效性,实验表明该算法能在多示例多标签学习框架的退化过程中很好的保留基因之间的相关性信息,并拥有着良好的性能。
其他文献
河源市村干部大专学历教育班,通过创新对村干部素质培训与高等学历教育相结合的教育模式,逐步提高各村级干部的业务能力、法规意识、文化水平和处理村务的组织领导能力,增强
人类社会正面临全球气候变化的重大挑战,这在很大程度上是由碳排放量的剧增所引起的。在这一背景下,抑制碳排放量的增长、提高碳排放效率也就成为各国乃至世界所关注的重要问题。党的十九大报告明确提出:“形成绿色发展方式和生活方式,坚定走生产发展、生活富裕、生态良好的文明发展道路”。自20世纪90年代开始,全球价值链(GVC)已然成为了一种全球经济发展新趋势,中国积极融入国际经济大环境,参与全球价值链的国际分
近几年来,随着网络技术技术的迅速发展,网络信息安全也受到越来越多的关注,网络攻击事件也日益增长,且攻击手段也越来越趋于复杂化,尤其是内部攻击事件,与外部攻击不同,内部攻击往往来源于内部用户的蓄意或无意行为,很多异常行为往往掩饰在正常行为中,具有隐蔽性高、破坏性强的特点,在对企业造成更大损害的同时,也更不容易被检测到。因此,如何检测和预防内部威胁就变得愈发重要。随着深度学习技术的迅速发展与近年来获得
中国历经70年的繁荣发展,尤其是改革开放以后,信息技术的不断普及,彻底改变了原有的落后经济现状,全球一体化日程的全面推进,这些原因推动了社会生产方式的转变,一部分高科技产业成为了经济发展的主要驱动力,例如从事计算机的企业、通讯技术产业,时代的浪潮推动出一大批中小型高科技企业,这些企业开始成为时代的弄潮儿。中小企业在洛阳市的经济中占有很大的比重,它们在经济社会中具有自己独特的作用,这些作用是大企业无
近几年,全球经济发展突飞猛进,国内经济持续快速增长,对外贸易蓬勃发展,给外贸公司制造了很好的外部环境。据统计,2003年,我国的出口总额达到了36287.89亿元,对外贸易作为我国重要的经济支柱之一。在国家政策的鼓励下,外贸形势非常好。在如此的大环境下,KNS外贸公司应运而生,渡过了全球经济危机,在同行激烈的竞争中脱颖而出,取得了一定的成绩,成为了宁波港家具出口量最大的出口商之一。然而,随着业务量
酰胺酶(EC 3.5.1.4)作为腈转化酶家族中重要一员,由于其广泛的底物谱、专一立体选择性,在制备手性药物和农用化学品中间体中具有广阔应用前景。在腈水合酶/酰胺酶的双酶体系
伊犁河流域横跨哈萨克斯坦和中国,拥有独立的内陆河流水系和径流区,流域内的主要河流伊犁河连接中哈两国。流域内水资源分布不均,生态环境日益恶化,伊犁河作为巴尔喀什湖水源的主要供给河流,关于该河流的水资源分配协议,中哈两国尚未达成一致。地表蒸散发作为水循环的关键环节,近些年来已成为水资源管理的重要研究对象之一。准确估算该流域内的蒸散发量和天然植被生态耗水量有利于该跨境流域的生态系统可持续发展以及和水资源
城市基础设施在城市建设发展过程中起着不可缺少的重要作用,担任着推进城市化过程中的物质保证角色。PPP模式能够很好的处理城市基础设施建设资金匮乏的现状,另一方面还能通
伴随“云计算”的成熟和发展,存储和访问数据的方式已经发生了根本性的变化。凭借“云”和“云存储”,每个网民的数据都可以安全、快速地汇总到一个数据中心。与传统的分散数据相比,这种大量数据是依靠“云计算”创建的,此集合称为“大数据”。数据的产生遵循数据的利用,而数据系统的核心数据(即公民的个人数据)面临过度滥用和非法使用的网络安全威胁。具体的体现是人们越来越享受大数据时代的便利,并且越来越意识到数据能够
淀粉是高等植物种子的重要组成部分,是决定作物产量和品质的关键要素。淀粉主要是由腺苷二磷酸葡萄糖焦磷酸化酶(Adenosine diphosphate glucose,AGPase)、淀粉合成酶(starch