论文部分内容阅读
随着各行各业的发展,数据挖掘正在更广泛地应用于存在着大量数据的地方,如银行,保险等行业。而大量的数据只是存放在那里,并没有提供有用的信息,此外若是人工地去分析这些数据会非常地费时,这就越来越需要有效的手段和方法,快速地从大量的数据中获取有价值的信息。而这就是数据挖掘的主要任务。本文首先介绍了数据挖掘的研究和应用背景。由于本文主要研究的是分类方法中的支持向量机,因而介绍了支持向量机的基本概念,以及支持向量机的基本分类和预测原理,并详细分析了一些支持向量机相关的典型算法及其优缺点。为求解随后的支持向量机问题即带有约束的问题奠定基础,分析了求解无约束问题的一些典型算法。在此基础上,针对国内外的支持向量机算法进行了在分类性能的高低,训练时间的长短等方面的对比和分析。在分析了一些结合数据样本几何性质的相关支持向量机分类方法研究基础上,提出了一种新的基于样本几何估计值的支持向量机分类方法。首先利用数据样本的几何性质,提出样本几何估计值的概念,它较好并有效地反映了样本的几何性质,且计算简便。并由此形成新的求解支持向量机的目标函数与约束函数。并在数据样本线性与非线性可分的情况下,形成新的基于样本几何估计值的支持向量机。用乘子法进行求解,并进行了理论上的数学推导。最后用实验做出了相关性能的分析对比。实验表明,新的基于样本几何估计值的支持向量机分类方法有着较好的分类性能和较短的训练时间。特别地,当数据样本较多时,为了缩短支持向量机的训练时间,提出了新的基于样本几何估计值的支持向量机辅助分类策略。首先,结合样本的几何性质,提出样本整体偏离度的概念。其目的利用已经提出的几何估计值的概念来进行支持向量机的辅助分类,而不是单独提出辅助分类方法,较好地利用了样本本身的几何性质。解决了当数据样本较多时,支持向量机的训练时间较长的问题。同样地,通过实验来分析支持向量机的分类性能。实验表明,带有辅助分类策略的基于样本几何估计值的新支持向量机比已有相关的支持向量机分类方法有着更好的分类性能,更少的训练时间。这些方法的提出,不仅在理论上对于支持向量机的分类方法有了新的提高,而且对于实际的应用也起到了推进的作用。