统计学习方法在多示例学习及特征抽取中的应用

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:HDGKD30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计学习理论在低维独立同分布采样的数据上面有很好的理论性质及应用效果。随着应用层面的扩大,结构化数据以及有各种复杂约束的数据集合层出不穷。研究人员急需将传统的统计学习方法推广到这一类数据上面。多示例学习是针对某种应用驱动的结构化数据专门提出的一类新的机器学习算法,它主要应用在图像分类,文本分类,计算机安全,以及药物活性研究等各个领域。与一般的监督学习不一样的是,在多示例学习当中,只有样本包的标签是已知的,在正包中的所有样本的标签都是未知的。通常处理多示例学习的算法都假设包内的样本是独立同分布的,但是在实际运用中这点假设并不成立,实际当中包内的数据有着很强的耦合相关关系。在我们的论文里面利用了这种相关关系,包内的负样本和正样本被当作一些相关对来进行处理。据此,我们提出了新的有效的特征映射对包进行重新描述,并且从理论上证明了这种映射的必要性,最后从实验上展示了新算法的有效性。传统的支持向量机由于有理论保障的泛化能力得到了很广泛的应用。但是支持向量机的一个缺陷是所得的结果缺乏稀疏性。因此,支持向量机不能被应用到特征抽取上面。l0范数支持向量机有着很好的稀疏性,但是由于它是一个组合优化问题在计算上通常是不可行的。在我们的论文里,1范数和无穷范数被结合起来一起给出了l0范数的一个上界,最终得到的约束区域有着比1范数约束多很多的极点。这些极点处对应的都是稀疏解。一般来说,约束区域有着越多的稀疏极点,最终的解将会越稀疏。于是,通过在1范数和无穷范数共同约束下的约束区域上来最优化转折损失函数,可以得到稀疏的解。有趣的是,虽然仅仅用无穷范数来做为约束区域我们无法得到稀疏的解,但它的引入可以提高1范数约束区域的稀疏性。最终的解随着参数的变化成分段线性变化,我们的算法可以给出参数在0到无穷范围内变化的整个分段线性路径,并以此路径提高交叉验证的效率,这种提高对模型选择有很大的好处。分段线性性质的严格证明在我们的论文中被给出,试验结果表明了新的算法和一般的特征抽取方式相比,有着相近的泛化性能和更高的稀疏性。
其他文献
机器人产业的发展对机器人的成本、多功能、多用途提出了更高的要求,因此,模块化技术得到了极大的重视,并成为当前机器人研究的热点问题之一。机器人通信总线研究是机器人模
随着我国天然气长输管道事业的发展,燃气轮机一压缩机组得到了日益广泛的应用,建立燃气轮机一压缩机组的数学模型,进行较为深入的研究有着重要的理论和实际意义,其次,由于设
离心式压缩机是化工行业中使用最广泛的生产设备,随着工业生产规模的扩大和生产工艺的改善,用户对离心式压缩机控制的安全性、可靠性和不间断性提出了更高的要求,冗余技术是提高控制系统安全可靠性能的关键技术,被广泛的应用到离心式压缩机的控制中。本文以青海某集团公司的甲醇项目为背景,在充分了解甲醇生产工艺和压缩机控制要求的基础上,深入研究了冗余技术的结构配置和技术特点,设计了基于三重冗余的压缩机控制系统。该系
CO2是大气中的一种重要温室气体,对地气辐射平衡、气候变化影响重大。因近地面的大气信息与人类的活动关系最为密切,因此,准确的测量低对流层大气CO2的体积混合比意义重大。  
目标跟踪在科学和工程中具有重要的研究价值。由于摄像机和目标之间的相对运动以及应用场景的复杂多变,采集的视频图像中一般具有光照变化明显、图像中杂物或噪声显著、目标
海天背景与目标实时红外仿真技术研究,主要以红外辐射、红外成像理论为基础,研究海面、天空背景和目标的几何特性和红外特性,建立海面、天空背景和目标的红外模型,利用虚拟现
掌纹识别技术是一种新兴的生物特征识别技术,是近年来研究的热点之一。与其他生物特征识别方法相比,掌纹特征信息更加丰富,图像采集方便且掌纹识别对掌纹图像质量要求不高,易
近年来,无人机技术和传感器技术的发展促进了小型、低功耗组合导航系统的研究。本文对应用于旋翼飞行机器人的组合导航系统开展研究。在查阅大量文献的基础上,本文研究了捷联
超声速飞行器特别是高超声速飞行器的发展是一个国家国防实力的重要体现,因此,发达国家投入大量的物力和财力开展超声速飞行器的研究。超声速飞行器进入大气层高速飞行的过程中
近年来,脑卒中患者逐年增加,导致越来越多的患者受到不同程度的运动功能障碍的折磨,因此,实现切实有效的康复治疗成为当今的研究热点。而脑机接口技术作为近年来新兴的技术,