论文部分内容阅读
棉花是世界上重要的经济作物之一。棉纤维是纺织工业的主要原料,棉籽是棉花产业的重要副产品。棉籽富含脂肪酸和蛋白质,是世界上重要的植物油来源之一。棉籽是人类和牲畜蛋白质的重要来源,同时也可以作为各种工业产品的可再生原材料,如生物燃料、润滑油和液压油。在棉花育种和生产过程中,往往需对大量棉籽样品的蛋白质含量和脂肪酸含量进行快速、准确的分析。建立能有效预测整粒带壳棉籽的蛋白质含量和脂肪酸含量的精确模型具有重要价值。本研究旨在建立一套能够对棉籽总蛋白质含量(PR)、棉仁粉总油分含量(KTA)、棉籽总油分含量(STA)以及主要饱和脂肪酸含量(硬脂酸C18:0、棕榈酸C16:0和肉豆蔻酸C14:0)进行准确预测且适用范围较广的近红外估计模型,通过新建模型估计棉子组分,进行了关联分析。主要研究结果如下:1.利用多年份、多地点种植的135份来自国内外的陆地棉种质材料,通过近红外光谱扫描仪DA7200扫描整粒带壳棉籽获得原始光谱信息。采用的波长范围为950nm-1650nm。在模型构建之前,先采用标准正态变换(SNV)、一阶求导和Savitzky-Golay卷积平滑方法对近红外原始光谱进行了预处理。采用标准的化学分析方法测定了棉籽中总蛋白、总油分和五种脂肪酸含量。总蛋白含量、总油分含量和五种脂肪酸含量的相对值范围为0.541%-61.848%,变异系数范围为2.221%-19.076%,这表明以上组分在棉籽中存在着较广泛的变异,有利于近红外校正模型的构建。与此同时,棉籽总蛋白质含量和棉仁粉总油分含量、棉籽总油分含量、肉豆蔻酸含量、硬脂酸含量显著负相关。2.选取90份陆地棉品种作为校正集,采用线性的偏最小二乘法(PLS)建立了各指标的近红外反射光谱(NIRS)校正方程。利用构建的回归模型对未参与模型构建的剩余45份陆地棉品种进行了预测,以检测模型的预测能力和回归效果。根据性能偏差比(RPDp)来评估每一个校正方程,最终评估结果是所建立的相关指标的NIRS校正方程的预测能力与外部验证结果基本一致。有关PR和STA的校正模型的决定系数R2val分别为0.926和0.920,剩余预测偏差RPDp分别为3.687和3.530。构建的PR和STA的校正模型均取得了较高的预测精度和较好的稳定性(R2val>0.900,RPDp>3.500)。有关KTA、亚油酸含量(LNA)、硬脂酸含量(SA)、肉豆蔻酸含量(MA)和棕榈酸含量(PAM)的校正模型的决定系数R2val分别为0.878、0.876、0.863、0.860和0.841,剩余预测偏差RPDp分别为2.866、2.836、2.697、2.676和2.506。构建的KTA、LNA、SA、MA和PAM的校正模型均取得了相对较高的预测精度和相对较好的稳定性(R2val>0.840,RPDp>2.500)。有关油酸含量(OLA)的校正模型的决定系数R2val为0.736,剩余预测偏差RPDp为1.945。构建的OLA校正模型预测精度较差,稳定性较差(R2val<0.800,RPDp<2.000)。因此,对于检测整粒带壳棉籽中的PR、STA、KTA、LNA、SA、MA和PAM,近红外光谱技术能够替代常规的化学分析方法,并可进行快速无损分析。3.利用8种棉籽营养品质性状的化学测量值和近红外预测值分别与SNP分型数据(41832个多态性SNP标记)进行关联分析。采用混合线性模型MLM(PCA+K),在化学测量值和近红外预测值中共同检测到了20个与棉籽营养品质显著关联的SNP标记。与PR、KTA、LNA、OLA、MA、PAM、STA和SA相关联的SNP标记分别为2个、4个、6个、2个、1个、1个、1个和3个,占通过化学测量值所检测到SNP标记数目的比值分别为66.67%、80%、100%、50%、50%、33.33%、33.33%和75%。在共同检测到的SNP标记中,与PR、KTA、LNA、OLA、MA和SA相关联的最显著SNP标记是一致的。共同检测到的20个SNP标记定位到12个QTL区域。对于PR、KTA、LNA、OLA、MA、PAM、STA和SA而言,分别定位到2个、3个、2个、1个、1个、1个、1个和1个QTL区域,占通过化学测量值所确定的QTL区域数目的比值分别为66.67%、75%、100%、33.33%、100%、33.33%、33.33%和50%。两种方法都检测到的12个QTL中,有4个QTL(qGhLNA-c10、qGhKTA-c13、qGhPR-c13-2和qGhSA-c24)在之前研究中被报道过。从通过化学测量值所筛选到的21个QTL区域内初步获得83个候选基因,包含24个在胚珠中优势表达或特异表达。通过功能注释从中初步鉴定到了3个可能与棉籽脂肪酸合成相关的基因,分别为GhA07G2087、GhA07G2084和GhA13G0396。以上研究结果表明有关整粒带壳棉籽PR、KTA、LNA、MA和SA的校正模型精度较高,稳定性较好,近红外预测结果可用于进行全基因组关联分析。