支持向量机与高维统计判别分析

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:luodf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术革新的深入,大量知识和数据的获取变得越来越容易。由此带来的数据分析问题的复杂性对传统统计学构成了极大的挑战。高维数据,或称横向数据挖掘问题便是其中一类,它存在于科学研究和商业应用的许多领域,如疾病研究、计算生物学、金融工程和风险管理等等。其典型的数据特征是“low sample size and high-dimensional”,即自变量个数p远远大于样本量n,且在实际应用中,不仅要求精确预测,往往还要求自动的变量选择和特征压缩。传统的回归或判别分析等方法已无法胜任这项极具挑战的工作。 本文主要考虑生物统计学中的基因数据分析问题。现代医疗成像技术的进步,使得一次同时测绘大量基因组表达水平成为可能。常用的microarray基因数据是典型的高维度低样本量数据,一条记录表示一个细胞样本(病例)的mRNA基因表达水平,往往高达数千维,而由于测量成本等考虑,样本量一般只有数十条。一个基本的任务就是要利用这些基因数据构造一个良好的分类判别器,对病例诊断起指导作用,同时又能对成千上万的基因进行有效地筛选,为病理的深入研究节省大量时间和精力。转化为统计学问题,就是要在p》n时有效地判别,并能够快速有效地选出最显著的变量。传统的主成分或是偏最小二乘回归将输入空间进行某种旋转来压缩维度消除共线性。这些有偏估计虽然能获得更高的预测精度,但是在p特别大时,计算效率欠佳,而且无法实现变量的自动选择。 支持向量机(SVM)由Vapnik提出后,逐渐成为流行的机器学习方法。不同于神经网络,Vapnik的统计学习理论为SVM等学习方法建立了良好的数学基础,VC维和SRM理论能很好地保证SVM的泛化性能。由于采用了特殊的“hinge”损失函数,即使在高维度低样本量下,支持向量机也能很好实现判别。同时,SVM不像线性模型那样对样本分布有要求,而且由于天然地有一个二次罚,所以可避免过拟合,共线性等情形也可不受影响。虽然标准形式的支持向量机能够很好地实现高维数据分析,但却无法自动地进行变量选择,要使其能够很好地完成基因筛选任务,需要对标准的SVM作改进。 变量选择问题在统计学领域由来已久。线性模型下常常是拟合多个模型,然后利用如AIC、BIC或Cp等统计量来选择最经济的模型。对于基因数据,这种策略的计算代价往往十分昂贵。加罚/正则化方法为变量选择和系数收缩提供了一个整体的工作框架,正受到越来越多的关注。最佳子集选择、基于二次罚的岭回归和基于L1罚的LASSO等工作都可被纳入其工作范围。基于线性模型族,Fan(2001)系统讨论了变量选择问题的加罚方法,并在此基础上提出了数学性质更加优良的SCAD罚,实现了变量选择过程的光滑进行。在此基础上,加罚的思想很自然地被运用于SVM。L1-SVM和SCAD-SVM相继被提出和讨论。研究发现,和线性模型中一样,这些正则化形式的支持向量机能产生非常稀疏的解,从而使得变量选择自动进行。 不同于以前的这些模型,本文提出了基于二次和SCAD混合加罚的正则化支持向量分类机:MP-SVM。二次罚虽然能够很好地收缩系数避免共线性,但却无法自动地将系数罚为零;L1-SVM对小系数依然予以“惩罚”,从而能够实现变量选择,但其罚函过于刚性,模型估计可能变得不太稳定;SCAD罚利用二次样条实现了变量选择过程的光滑进行,却由于追求无偏性而放弃了对大系数的加罚,因而大系数上的共线性可能依然存在。而MP-SVM综合了二次罚和SCAD的优势,将小系数快速地罚为零从而实现变量选择,同时又在大系数上进行收缩,避免共线性,使得到的模型估计更加稳健。而且,借助LQA,MP-SVM能得到很好的求解。 结合相关文献,我们在第一章里阐述了问题的背景和意义。在第二章,我们对SVM进行了具体描述,包括其几何背景、等价的统计学形式以及求解时采用的一般策略等等。而各种加罚模型的讨论安排在第三章。第四章则给出了MP-SVM和求解方法,而第五章则展示了MP-SVM在基因数据上的实际表现。第六章回顾了全文的讨论,并给出了我们的结论。
其他文献
股票市场是一个高风险高回报的投资市场,任何一位投资者都想在这个不断变化的市场中以较小的投资风险获得高额的投资回报。但是如果没有一个正确的投资理念和科学的投资策略作
本文通过对荣华二采区10
期刊
教育教学资源是实施学科教学的基本素材。新课标实施以来,如何实现地理学科的高效教学已经成为广大地理学科教师广泛探讨的话题之一。实现素质教育的目标,培养出符合时代和社
期刊
我出生在山西老区的一个农村,在学书之时当地的文化氛围可以说是极度贫乏,虽然从六岁就喜欢写毛笔字,但是只能按照村里一位语文老师写的字样仿写。直到十二岁才见到第一本印
自1984年以来,我们应用三磷酸腺苷(ATP)静脉注射转复阵发性室上性心动过速(PSVT)18例,结果转复迅速,疗效确切,副作用小。现报告如下: 一、病例选择和临床资料选自门诊和住院
随着经济全球化的不断深入,全球分工格局也不断出现新的变化,其中最为重要就是技术越来越成为企业在全球市场格局中获得竞争优势的来源。中国在改革开放的三十年以来,各个产
一直以来,房地产行业在一个国家的经济发展过程中均扮演重要角色。房地产市场的发展与国民经济的发展紧密相关,房价的波动也和宏观经济主要变量的变化存在密切关系。房价的波动
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
战略性贸易政策是建立在不完全竞争、规模经济的基础上的。它主要是针对在寡头垄断的市场竞争条件下,政府在制定贸易政策时考虑到本国企业的在国内外市场的地位,以及外国企业和
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.