论文部分内容阅读
在哺乳纲中的实验动物里,小鼠因为其形体小,饲养和管理非常方便,也非常易于控制,且小鼠的生产和繁殖能力强,人们对其研究最深,已有明确的质量控制的标准,现在在实验室中拥有大量的近交系、突变系和封闭群,所以在各种实验研究中,小鼠的用量最大,且用途最多。因此,对于人类和小鼠的基因组隐藏序列的特征对比非常具有现实意义。 作为一种无监督的神经网络算法,自组织映射(SOM)是一个能够在一个单一的二维图上,进行高维复杂数据的聚类并且将其可视化的有效工具。但要能够进行在物种之间进行大量的基因组序列的特点的广泛对比,就需要改进自组织映射的算法。我们采用批处理自组织映射作为研究手段,进行人类与小鼠基因组隐藏序列特征对比。 在这篇论文中,我们首先使用十种脊椎动物的基因组的100-kb的序列片段构建批处理自组织映射在五核苷酸组合物上进行聚类,以检验批处理自组织映射在五核苷酸组合物上聚类的可行性。十种脊椎动物在批处理自组织映射上的成功聚类,说明了批处理自组织映射在物种基因组序列中能够识别物种特异性的特征(寡核苷酸频率的关键组合)。在整个批处理自组织映射的学习过程中,只允许基因序列本身的物种特异性特征,除此之外,就没有带有任何别的与物种本身有关的信息。因此,批处理自组织映射的分类和可视化的能力都是非常强的,它能够从大量的基因组序列中提取广泛的信息内容。 然后,我们再利用批处理自组织映射在五核苷酸组合物上对来自人类和小鼠基因组的100-kb的序列片段进行聚类,利用基因组序列中的单核苷酸个数,进行比较,找出人类基因组和小鼠基因组在五核苷酸组合物上的不同之处。在利用批处理自组织映射对比人类和小鼠的基因组,发现在诸如五核苷酸组合物AAATT/AATTT,ATCAC/GTGAT和TTCAA/TTGAA上有很多的不同。并且通过观察二维图,发现一些特殊区域,这些特殊区域分布于染色体着丝粒和附近区域,通过验证位于特殊区域的序列与转录因子相关。