论文部分内容阅读
随着信息社会的到来,促使知识发现问世,可以有效解决从海量数据中挖掘知识。数据预处理是知识发现过程的重要组成部分,直接影响到数据挖掘效率和知识模型的质量。研究数据预处理,尤其是数据清洗和数据补齐,具有理论意义和实用价值。
在数据清洗和数据补齐技术进行综述的基础上,针对比较简单的数据降噪,应用分箱技术和回归分析来实现降噪;含噪数据在频域和时域变化的比较复杂时,应用小波变换中的Mallat算法进行降噪。经过真实工程数据实验表明,Haar小波基可以应用于石油领域内的数据降噪。针对缺失数据,根据SVM在函数拟合方面的特点,建立了一个函数模型。通过确定主要影响因子和选定数据集后,对该模型进行训练,最后成功地应用于缺失数据补齐。经过真实工程数据实验证实,基于SVM的缺失数据补齐方法具有明显的实用性。在基于支持向量机的对象分类识别的算法上,对SVM其中比较重要的参数进行了优选,提高了对象分类的正确率;在此基础之上,结合实际需要加入一个判断函数,进一步提高了SVM分类器的分类正确率。试验表明:SVM分类器应用于地层识别效果良好。
本文所用的各种数据预处理方法和基于SVM的对象分类识别算法具有广阔的应用前景,不但可以应用于石油领域内数据的知识发现,也可以应用于其它需要知识发现的工程领域。