论文部分内容阅读
本文应用分子电性距离矢量(MDEV)表征大量有机污染物的分子结构和基于预测的变量选择与模型化方法(VSMP)选择最佳描述子,建立了具有较高预测能力的生物富集因子(BCF)和MEDV描述子的QSAR模型。
1.利用MEDV表征283个有机污染物的分子结构,VSMP选择最佳描述子,建立了7-变量的多元线性回归(MLR)模型。模型的相关系数r=0.9002,交叉验证相关系数q=0.8931。结果表明,影响生物富集因子(BCF)的最主要子结构碎片为-CH2-、CH<、-cCc和X(卤素)。其中,影响极性有机污染物的主要子结构碎片为X。
2.利用MEDV表征联苯和209个多氯联苯(PCBs)的分子结构,VSMP选择最佳变量,建立了58个PCBs的logBCF与2个MDEV描述子之间的QSAR模型(简称模型MI),模型MI具有较好的估计能力(r=0.9605,RMSE=0.24)和较高的稳定性(q=0.9564,RMSV=0.26)。结果表明,影响PCBs生物富集的最主要结构因素为两个子结构碎片>C=和-CH=。为了检验模型MI对外部样本的预测能力,将58个PCBs分成分别包含29个PCBs的“偶数集”和“奇数集”,建立了“偶数集”模型MO和“奇数集”模型ME。研究表明,3个模型(MI,MO和ME)都具有较好的预测能力且可用于预测剩余152个PCBs的未知BCF值。
3.利用MEDV表征122个非离子型有机化合物(NOCs)的分子结构,VSMP选择最佳描述子,建立了122个NOCs的logBCF与MEDV描述子之间的QSAR模型。最好的5-变量模型,其r=0.9747,q=0.9710,表明了模型具有较好的估计能力和稳定性。为了检验模型对外部样本的预测能力,将所有数据集分成包含80个NOCs的训练集和包含42个NOCs的检验集,其预测相关系数u=0.9501。结果表明,影响NOCs的主要因素为原子类型nos.2,3,5和13,子结构-CH2-或=CH-,-CH<或=C<,-NH2,-Cl或-Br。其中,前两者存在于NOC的分子骨架中,后两者与苯环上的取代基密切相关。
4.利用MEDV表征127个非极性有机化合物(NPOCs)的分子结构,VSMP选择最佳描述子,建立了5-变量MLR模型(模型M2),模型M2的r=0.9596和q=0.9551。为了验证模型,114个NPOCs被分成训练集(包含100个NPOCs)和检验集(包含14个NPOCs)。结果表明,影响NPOCs的BCF最主要结构因素为-cCc和cCcc,-Cl和-Br,其中前两个结构因素与苯环的骨架相关,后两个结构因素与苯环上的取代基密切相关。通过使用MEDV描述子,QSAR模型可以有效地预测NPOCs的BCF值。