论文部分内容阅读
支持向量机(SVM)作为一种新兴的基于统计学习理论的分类算法,具有坚实的理论基础,巧妙的算法实现和卓越的性能。其核心思想是将一个复杂的分类任务通过核函数映射使之转化成一个高维特征空间中构造线性分类超平面的问题。与其它分类算法相比,SVM方法具有全局最优、结构简单、推广能力强等优点,在大规模数据分类中具良好的应用效果。
本文首先介绍了支持向量机的理论依据、支持向量机的推导过程以及支持向量机的训练算法。由于支持向量机的学习本质是通过对偶问题来求解原问题。对于大规模的训练样本需要很大的内存来存储Hessian矩阵,如何减少在训练样本时所需的空间及时间,考虑到只有成为支持向量的样本才对决策函数起作用,结合支持向量的特性本文提出了一种新的基于支持向量机的特征选取算法以及两种样本点选取算法,通过实验证明了这些新提出的算法具有可行性和适用性。其中两种样本选取算法的几何意义都是选取最大可能成为支持向量的样本点作为训练集,且不同的样本选取算法适用于不同的数据。
支持向量机在大规模数据应用研究中首先介绍了它的背景和意义。文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性等特点,可视为文本向量数据为大规模稀疏数据。本文将支持向量机应用于稀疏数据及稠密(医学)数据中,实验表明支持向量机对稠密数据具有较好的推广能力,而支持向量机并不适合在稀疏数据的应用,本文还对这一所得的结论作了进一步的分析。