论文部分内容阅读
表面活性剂分子结构中有典型的双亲成分——亲水基团与亲油基团,致使其易吸附在界面上并导致表面张力显著降低。这种表面活性性质与其独特的分子结构关系密切。阐明表面活性剂结构与性质之间的内在联系对于进一步了解表面活性剂行使功能的分子机制、指导表面活性剂的合成及应用意义深远。表面活性剂研究包括实验及理论两个方面。“物质的组成与结构决定物质的性质,性质决定用途,用途体现性质”是自然界基本的哲学思想。任何物质的组成与结构都包含了其物理、化学及生物性质的密码。利用理论计算和统计分析工具研究系列化合物结构与其效应之间的定量构效/定量构性关系(QSAR/QSPR, Quantitative Structure-Activity Relationship/Quantitative Structure-Property Relationship),即借助结构参数构建数学模型来描述化合物结构与活性或性能之间的关系属于理论研究的范畴,从大量纷繁复杂的数据中归纳、演绎得出相互依赖关系并用于解释和预测属于统计分析的范畴,理论计算则能在分子/原子层面上精确分析纯物质或体系的各种性质,例如基本物理性质、生物活性、表面活性、相互作用及电荷分布等。本文进一步拓展了QSPR和量子化学的应用范围,分别对非离子表面活性剂的浊点(cloud point)行为进行了构效关系探讨、用量子化学计算方法对非离子表面活性剂的临界胶束浓度(critical micelle concentration)行为进行相关性分析、统计分析并模拟了阴离子双子表面活性剂和阳离了双子表面活性剂的临界胶束浓度行为。基于上述统计分析结果,设计并合成了具有潜力的先导双子表面活性剂分子,表面活性实验表明其cmc值为0.83mmol/L而统计模型预测值为0.89mmol/L。实验结论确认了阳离子双子表面活性剂理论模型的预测能力。在这些章节中,除采用多元线性回归(MLR)和偏最小二乘(PLS)经典方法外,还将多种新型机器学习方法,即高斯过程(GP)、随机森林(RF)、支持向量机(SVM)、最小支持向量机(LSSVM)方法分别引入表面活性剂体系的统计模拟领域。采用启发式算法(heuristic algorithm)或遗传算法(genetic algorithm)筛选变量,通过留一法(LOO)/留N法(LNO)等交叉验证方法系统比较了线性与非线方法在表面活性剂统计模拟过程中预测性能的差异。论文的量子化学研究部分采用量子力学方法结合密度泛函理论(DFT)对孤立状态中的非离子表面活性剂的单点能进行计算再结合已经成功应用的拓扑和构造描述符进行相关性分析。下面对这些工作逐一加以概述:(1)非离子表面活性剂浊点的构效关系探讨:非离子表面活性剂广泛应用于日化、洗涤、纺织、生物大分子等领域中,尤其是近些年发展迅速的符合绿色化学(green chemistry)理念的新技术——浊点萃取(cloud point extration),即是非离子表面活性剂浊点行为应用的特例。本文采用CODESSA软件计算描述符综合研究了62个聚氧乙烯醚型非离子表面活性剂浊点的定量构效关系并推广到82个样本。研究发现:①由亲水基片段与由疏水基片段衍生的描述符所建立的MLR模型相当甚至更优,说明非离子表面活性剂浊点行为甚至更多的是与亲水部分的结构相关,打破了传统建立非离子表面活性剂的构效关系一定要从疏水基中取得的描述符的观念;②非线性的机器学习方法——GP得到比MLR、PLS、SVM(?)(?)LSSVM方法更加优越的拟合能力及预测性能,说明包含了多种成分组合协方差函数的GP更适合处理样本集中非离子表面活性剂浊点的线性和非线性混合依赖相关关系,最优模型是由亲水基片段衍生描述符拟合的GP模型,其r2和rpred2值分别为0.922和0.962;③对于结构更加复杂的非离子双子表面活性剂来说,发现非离子双子表面活性剂比含相应碳原子数和聚氧乙烯醚单元数的单体浊点更低。(2)非离子表面活性剂临界胶束浓度的量子化学研究:本文基于DFT理论B3LYP基组水平,采用Gaussian03软件包计算出77个非离子表面活性剂的单点能,经量化计算得到分子总能量E、最高占有轨道能量EHOMO、最低空轨道能量ELUMO、二级偶极矩D、及二级偶极矩D在x、y、z空间方向的分量等9个分子信息参数,再采用CODESSA软件计算非离子表面活性剂疏水片段的Kail-Hall零级指数(c-KH0)和疏水片段的二级平均分子信息指数(c-AIC2)两个拓扑描述符,及相对氮原子数和氧原子数(RNNO),然后对上述12个描述符进行逐步回归分析建立MLR模型。结果表明来自疏水部分的拓扑指数——c-KH0和c-AIC2,构造描述符RNNO以及由量化计算所得到的两个描述符EHOMO(?)(?)ELUMO共5个描述符是影响非离子表面活性剂临界胶束浓度的主要因素,各影响因素的统计重要性依次为:c-KH0>c-AIC2>RNNO>EHOMO>ELUMO。经深入分析发现EHOMO(?)(?)ELUMO与其它三个变量间存在多重共线性,采用主成分分析消除共线性因素后建立了四参数最佳线性模型为:log cmc=3.509+0.671X1-0.593X2-0.372X3+0.061X4其中R2=0.994,F=18.032,P=0.(3)双子表面活性剂临界胶束浓度的统计模拟及应用:依然使用COSESSA软件产生建模所需描述符,①先对23个阴离子硫酸盐/磺酸盐类双子表面活性剂及其部分单体进行构效关系探讨,研究发现:硫酸盐/磺酸盐类双子表面活性剂的cmc较对应单体的更低,cmc随疏水基中碳原子数变化趋势更平缓,描述符经启发式算法筛选变量后可建立MLR模型,最佳三参数模型为:1og cmc=4.4620.016PNSA-1+7.844ABIC1+1.705XY,R2=0.9142、F=67.45.s2=0.2080;其中:PNSA1为电子描述符,即原子表面域部分电荷,反应分子疏水部分表面所带电荷的分布情况;ABIC1为拓扑描述符,即平均化学键信息常数,是一种表征分子结构的指数;XY为几何描述符,是分子在XY坐标面内的投影,体现分子大小和分子的形状特性;②再用同样的方法对120个阳离子双子表面活性剂的临界胶束浓度进行研究,最佳MLR模型为:log cmc=(3.483±0.3217)-(0.323±0.001)KH1-(1.948±0.132)NP-(0.306±0.07)BI-(0.06±0.02)HASA-2,该方程的预测集复相关系数r2=0.900、交互验证相关系数q20.88、误差RMSP=0.39:③采用GA-机器学习方法联用,即GA-GP、GA-PLS、GA-SVM、GA-LSSVM、GA-RF联用系统对比了非线性方法的拟合能力及预测能力,结果发现:GA-GP统计模型最佳,预测集复相关系数rpred2=0.975、误差(?)RMSP=0.20;④在解析120个阳离子最佳MLR模型的基础上,设计用正溴代十四烷和N,N,N’,N’-四甲基乙二胺在乙醇溶液中回流、乙醇-乙酸乙酯体系重结晶、真空干燥得到双十四烷基双子阳离子二溴化季铵盐面活性剂(C14-2-C14),采用IR、1H NMR、13C NMR、元素分析及电喷雾质谱分析方法表征结构,经电导法测定临界胶束浓度后发现其cmc为0.83mmol/L,与按模型预测值接近,约是其对应单体表面活性剂十四烷基三甲基溴化铵的五分之一,意味着其表面活性是相应单体的5倍,属于有潜在应用前景的先导双子表面活性剂。