论文部分内容阅读
数据挖掘(DataMining)是从大量的、不完全的、有噪声的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。作为一门多学科的交叉技术,数据挖掘因其应用前景广阔而受到学术界和工业界的广泛关注。本文将数据挖掘技术应用于若干环境科学和构效关系的研究,主要研究内容和研究成果如下:
一、采用分段交叉建模方法建立了滤纸烟度测量数据与不透光烟度测量数据相互转换数学模型。本工作结果有助于解决两种柴油车排气烟度测量方法交替过程中出现的标准不延续、历史数据再利用和测量数据的比较等问题,可为柴油车排气污染防治监督管理工作提供科学、有效的技术支持。
二、机动车排气遥感监测技术在我国起步较晚,遥感监测到的数据由于离散性大,可利用率很低。数据挖掘技术结合具体的遥测数据分析处理情况,对各种建模方法进行优选和综合应用后,以KNN和ANN建立了高排放车遥测筛选数学模型。结果表明:(1)KNN低怠速模型的建模正判率不低于89.3%,租用车辆的验证正判率不低于75.0%,路检车辆的验证正判率不低于50.0%;ANN低怠速模型的建模正判率不低于75.0%,租用车辆的验证正判率不低于66.7%,路检车辆的验证正判率不低于50.0%。(2)KNN高怠速模型的建模正判率不低于82.0%,租用车辆的验证正判率不低于71.4%,路检车辆的验证正判率不低于50%;ANN高怠速模型的建模正判率不低于66.3%,租用车辆的验证正判率不低于50.0%,路检车辆的验证正判率不低于50.0%。所建模型显著提高了高排放车的遥测筛选正确率。
三、将数据挖掘新算法—支持向量分类(SVC)用于芬太尼衍生物结构与镇痛活性关系的研究。运用Hyperchem软件计算了14个该类药物分子的量子化学参数,SVC留一法交叉检验模型对芬太尼衍生物镇痛活性的预报正确率为93%,明显高于PCA方法(86%)、ANN方法(57%)和KNN方法(71%)。结果表明:适合于小样本集的SVC方法适用于芬太尼衍生物结构与镇痛活性关系的研究,是一种有潜力的SAR分析方法。