论文部分内容阅读
汉族作为世界上最大的族群,其源流问题一直是人文科学和自然科学共同研究的热点。来自遗传学方面的证据显示,汉族内部存在着明显的南北分层,而且同汉族内部的关系相比,汉族各地理群体同所在区域内的少数民族群体之间具有更近的遗传关系。我们不禁要问,到底存不存在遗传学意义上的汉族?汉族南北分层现象产生和维持的机制是什么?少数民族在汉族的形成过程中扮演了什么样的角色?
自春秋战国以来,汉族内部、汉族同各地土著人群之间经历了频繁的迁徙、扩张和融合等群体事件。为区分汉族内部古老的(核心的)成分和年轻的(周边的)成分,我们首先分析了“古汉族文化的直接继承者”——客家人群的遗传结构。在对170个梅州客家个体和102个潮汕个体的线粒体DNA(mtDNA,mitochondrial DNA)高变区(HVS,hypervariable segment)进行序列测定后,我们将这两个群体的mtDNA单倍型类群分布频率同其他27个汉族地理群体进行比较。分析显示梅州客家人群同南方汉族具有较近的遗传关系,即从母系遗传的角度来看,客家人是生物学意义上的南方汉族群体。此外,在同前期研究报道的Y染色体数据进行比较后,我们发现该群体mtDNA和Y染色体的结构呈现不同的模式,即父系水平的混合起源和母系水平的南方起源,这种性别差异的基因流可能同汉族的文化、婚俗制度等因素有关。为了全面了解汉族的遗传结构以及汉族同少数民族之间基因流的流向和尺度,我们采用了两种不同的策略进行研究:1)大规模的群体采样;2)大规模的遗传位点采样。前者采用mtDNA作为遗传标记,在收集了已发表的4,801个个体序列的基础上,又新增加792个个体的信息,最后得到的数据集包括5,593个个体,64个群体,分布于24个省/自治区、35个民族。后者对87个分别来自东北、西北、西南、华南、华东五大地理片区的健康汉族个体进行了全基因组SNP扫描(Genome-wide SNPgenotype),检测了871,166个常染色体单核苷酸多态位点(SNP,single nucleotidepolymorphism),然后同HGDP(Human Genome Diversity Panel)、HapMap Phase2和SGVP(Singapore Genome Variation Project)三个数据集的基因型矩阵进行合并。最终的数据集包括了1,502个个体,分布于41个群体(其中包含24个中国人群,8个汉族人群)。
基于单亲遗传的mtDNA群体分析显示,我国人群遗传结构的基本特征是“南北分层、梯度渐变”:南北分层是指南北少数民族的基因库相对独立,并分别对南方汉族和北方汉族的基因库有较强的贡献;梯度渐变是指汉族人群从北向南的遗传分布谱系呈现梯度变化的特征。进一步对来自基因组水平的数据进行混合成分分析显示,中华民族的遗传结构大致可以分成四个层次(Layers、):古老南方组分(古南组分)、古老北方组分(古北组分)、现代南方组分(新南组分)和现代北方组分(新北组分)。在比较了汉族同少数民族的遗传构成后,我们发现,汉族各个地理群体基本不含有古老的南方或北方组分,而且汉族群体的遗传结构具有一定程度的相似性,这个结果提示中国本土曾经存在过遗传学意义上的汉族。另外,结合上述四个基本组分出现顺序,我们推断中国人群南北差异遗传结构的形成过程为:1)地理隔离(IBD,isolation bydistance)驱动了首批到达东亚的现代人向北扩张,并形成了从南向北的遗传梯度;2)末次冰盛期(LGM,last glacial maximum)的到来打破了梯度的稳定,初步造成了南北断层的形成;3)源于北方的农业扩张或者汉族扩张,导致了古代汉族同少数民族的融合和交流,加剧了南北少数民族之间的分层,同时汉族内部却逐步形成了自身的南北梯度。
综上所述,“南北分层、梯度渐变”是中国人群遗传结构的基本特征,同中华民族“多元一体”的格局相符合,这个格局是通过前述的“三步走”形成的。作为年轻的汉族,其遗传结构具有一定的相似性,提示早期的汉族扩张历史更符合“人口扩张”模型,现存的汉族依然保留着或多或少的核心成分。当然,本研究的一些假设和推论需要更多数据和分析的支持。