面向物体识别的多核学习方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:vvv_vvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术以及计算机互联网技术的迅速发展,人们生活中触手可及的图像数据呈现爆发式的增长趋势,这对机器自动分析和识别图像内容的技术提出了迫切的需求和挑战。一方面,受制于图像底层信息和高层语义之间的语义鸿沟,图像中的物体类别信息很难直接从底层特征获得,因此需要借助物体识别的方法建立从底层特征到高层语义的映射。另一方面,不同的底层特征对物体识别的贡献不尽相同,既存在类内的变化,也存在一定的类间差异及共性。因此,本文针对基于多核函数的物体识别方法进行深入研究,致力于设计不同的多核函数组合以及对应的多核学习方法,挖掘不同问题背景下各种底层特征和核函数对物体识别的贡献,从而建立从多种底层特征到物体类别的合理映射。本文的主要创新点包括:   第一,提出了一种多核主动学习方法,用于解决训练样本筛选及多核学习方法计算复杂度较高的问题。该方法将主动学习引入多核学习框架,根据无标签样本的分布情况,通过一种局部自适应的样本筛选策略,自顶向下地利用样本簇间竞争和簇内竞争筛选出一批最有信息量并兼顾代表性及差异性的样本,进行类别标注并参与分类器训练。实验表明,该方法在不影响识别性能的前提下,有效地去除了训练样本冗余,缓解了多核学习算法复杂度较高的问题,并取得了显著优于已有主动学习方法的结果。   第二,提出了一种样本特定的多核学习方法,用于解决类内变化较大的物体识别问题。该方法提出了样本特定的多核函数组合对样本间的相似性进行度量,挖掘了各个核函数在不同样本上对于识别的贡献。该方法对物体的类内多样性具有较好的适应性。多个公开数据集上的大量实验表明,相比已有多核学习方法,该方法能更好地适用于类内变化较大的物体识别问题,并取得了与目前国内外前沿的物体识别方法性能相当的结果。   第三,提出了一种簇敏感的多核学习方法,用于解决不同物体类别间数据混叠的物体识别问题。该方法将样本簇引入多核学习框架,对物体类内多样性及类间相关性进行建模,提出了簇敏感的多核函数组合方式,有效地挖掘了不同核函数在样本簇上对于识别的贡献,在捕捉物体类内变化的同时兼顾了物体类别的共性。该方法在模型复杂度上对样本特定的多核学习方法进行了改善,降低了过拟合的风险。多个公开数据集上一系列的实验表明,该方法对于复杂数据中由类内多样性和类间相关性带来的数据混叠问题具有较强的适应能力,其识别能力显著优于已有的多核学习方法,并取得了与国际前沿的物体识别方法性能相当甚至更优的结果。   第四,提出了一种类共享的多核学习方法,用于解决多类物体识别问题中,多核函数组合的知识共享问题。该方法在物体识别领域将多核学习拓展到了多标签学习问题,并在统一的学习框架下,根据训练数据的充分程度,提供了多核函数组合在物体类别间相互独立、部分共享或者完全共享的多核学习方法。该方法在充分考虑物体类别在多核函数空间个性的同时,有效地挖掘了多个类别在多核函数空间的共性。实验表明,该方法能削弱训练数据不充分带来的不利影响,具有较强的识别能力和泛化性能。   综上所述,本文针对物体识别的多核学习问题进行了深入的研究。在充分考虑物体类别类内多样性、类间相关性以及类间共性等因素的基础上,挖掘了多种底层特征对于不同复杂程度的物体识别问题的贡献,提出了四种多核学习方法,并实现了基于视觉内容的图像分类系统,通过大量的实验验证了本文提出的方法的有效性。此外,本论文的研究成果将为物体识别领域开展更深入的多核学习方法研究奠定基础。
其他文献
随着互联网的发展,互联网应用向协协作性、多媒体方面演变。以音视频、图片为主要内容的应用极大的丰富了互联网应用内容,提高了用户参与的积极性。而多媒体应用增多的同时,
图像缩放是一种基础的数字图像处理技术,尤其是在信息技术飞速发展的今天,各种电子产品层出不穷,它们有着不同的分辨率和纵横比,当人们在这些电子产品之间传递图像时,如何满
在模型驱动开发中,模型是软件开发阶段的主要制品。对信息系统进行建模需要建模语言的支持。UML是被软件工业界和学术界广泛采纳的具有权威性的建模语言。为了满足不同建模领
雷达回波模拟技术是雷达技术研究中的一个重要环节。压缩感知理论与技术在雷达中的应用是近年来雷达技术发展的一个重要方向。将回波模拟技术与压缩感知技术结合起来开展研究
无线多媒体传感器网络(WMSN)中,数据的可靠传输是研究重点。基于最小跳数协议,本文提出一种带拥塞控制的时间片均衡负载多路径协议(MHDMwTS).通过分析无线WMSN中数据可靠传输
煤矿安全系统是煤炭企业安全生产的重要保障,人员定位系统则是煤矿安全系统中的重要组成部分。本文将目前比较先进的技术——空间数据仓库技术应用到了煤矿人员定位系统的研
数字家庭其中一个基本目标是为人们提供舒适、安全、方便和高效率的生活环境。这涉及到诸多设备信息和控制信号的调用和传输,而这些信息和信号对带宽的要求并不敏感;另外,由
OMG大力倡导的模型驱动体系结构(Model Driven Architecture,MDA)是一种对软件需求建立抽象模型,再由抽象模型自动生成完备的应用程序的方法。模型转换是实现DMA的核心技术。通
随着互联网用户及应用的快速增长,基于Web的网络版系统备受关注,而工资管理系统作为各企事业单位信息化中必不可少的部分,特别是对于机关事业单位的工资需要有国家政策作为指导,
图像理解是在图像处理与分析的基础上,结合人工智能和模式识别理论,解释客观图像场景并分析图像内容,从而指导和规划人类行为。图像理解以图像为对象,知识为核心,研究图像中何位置