基于深度学习的细粒度图像识别算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:ghjkevin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度图像识别是计算机视觉领域备受关注的一个分支,在学术界和工业界都有着极其重要的价值。最近几年,深度学习被广泛研究,开始频繁应用在越来越多的领域,并取得了新的重大突破。普通的粗粒度图像识别领域与深度学习结合后也得到了很大的发展,达到了前所未有的识别精度。但由于细粒度图像识别的目标物种不同的子类之间差别极其细微,而同一子类的物种可能受到光照、遮挡、姿态以及复杂背景等多方面的影响导致在图像中呈现的外观差别很大,还容易受到与识别无关的信息干扰,所以单单是传统卷积神经网络目前还不能很好地区分识别细粒度图像,它的识别精度还有着很大的提升空间。因此,要想获得较高的细粒度识别精度,就要想办法掌握目标物体的精确位置和捕捉更多有判别力的细节区域。为了有效提高细粒度图像识别的精度,本文基于深度学习算法,研究它在细粒度图像识别领域的应用效果,具体创新点及工作如下:(1)现有的许多方法过分依赖人工标注,代价很高昂,花费了大量精力。为了节省成本,本文提出了一种基于多尺度交叉特征融合的弱监督学习方法。该模型在不需要部件注释辅助的情况下,能够准确地从图片中定位目标物体,摒弃背景噪声对前景的干扰。接下来从定位的目标物体中捕获最具判别力的显著部件区域并放大裁剪,从而能有效地学习目标物体不同尺度的细粒度特征。实验证明,该算法在CUB-200-2011、FGVC-Aircraft、Stanford Cars这几个数据集上的分别获得了87.4%、90.8%、94.2%的识别精度。与其它优秀的弱监督方法相比,识别准确度有了进一步的提升。(2)为了获取更多的有辨识度的特征,本文提出了一种基于对抗性互补注意力增强的细粒度图像识别算法。该算法在注意力网络上应用了对抗性擦除策略,通过擦除图像中响应最大的部分来学习定位更多的可判别部件区域。通过注意力网络获取响应最大的部件后,将该部件区域它擦除,驱动网络寻找另一个有判别力的部件,利用相似度损失来限制两个部件的相似性,避免特征重叠,增加特征多样性。实验证明,该算法在CUB-200-2011、FGVC-Aircraft、Stanford Cars这几个数据集上的分别获得了87.5%、92.8%、94.4%的识别精度,有效提高了识别精度。
其他文献
毫米波技术能够利用未充分开发的毫米波频段来解决未来通信频谱资源不足的问题。大规模MIMO技术可以提供显著的阵列增益和高自由度空间,可以缓解毫米波巨大的空间路径损耗。将毫米波和大规模MIMO技术结合形成毫米波大规模MIMO系统,能够大幅提升通信系统的信道容量。毫米波大规模MIMO系统中的庞大天线阵列将会带来巨大的硬件成本和功耗,利用混合预编码技术有望解决这个问题。多数混合预编码研究基于全连接结构和部
信息技术的飞速发展,越来越多的司法证据以电子数据的形式呈现,电子证据的具体表现形式在司法工作的实际应用中也日益多样化,无论是使用频次还是使用的数量都在显著增长。各种电子化的证据虽然有着不同的形成方式,但都存在对技术依赖性强、容易被篡改等共性问题,越来越多的司法证据在电子化的同时也带来很多安全、信任等问题。在面对日益增长的电子数据存证需求,传统存证方式成本较高、效率低以及在司法实践中采信困难等问题也
无人机自组网克服了无人机之间的通信障碍,有效提高了无人机平台的效能,在军用和民用领域有广泛的应用需求。路由协议是影响无人机自组网通信质量的关键所在,动态源路由(Dynamic Source Routing,DSR)协议具有较低的路由开销和较好的网络性能,广泛应用于网络资源有限的自组网场景。本文聚焦于无人机自组网DSR协议的研究,主要研究内容如下:1.分析了无人机自组网的网络特性,在介绍DSR协议算
超表面是为了解决一些传统光学器件难以解决的光学难题而设计的人工二维材料,它由一系列亚波长单元结构排列组合而成。通过改变单元结构的材料、形状、尺寸等参数,它可以表现出不同寻常的物理特性。利用这些非凡的特性,按需求对单元结构进行排列,就可以设计出能实现各种功能的超表面器件。各向异性的金属或电介质纳米砖可以被设计为半波片或偏振器,通过改变纳米砖长轴方向的取向角,可以实现对圆偏振光相位或线偏振光振幅的连续
为了在聚酰亚胺(PI)薄膜中构建理想的三维导热网络,突破其作为热管理材料的技术瓶颈。本文研究了导热的界面调控与导热填料的协同作用机理,并以此来增强PI复合材料的导热性能。针对从球状(零维)、棒状(一维)、片层(二维)以及四针状(三维)的四种导热填料分别提出了双重协同、定向协同和多维协同的研究策略,其中通过硅烷偶联剂(KH550)对零维球形的氧化铝(Al2O3)和三维四针状的氧化锌(ZnO)导热填料
半监督学习(Semi-Supervised Learning,SSL)是机器学习领域中一项重要技术,一直受到研究人员广泛关注。SSL结合监督学习与无监督学习对数据进行处理,可以尽可能地减少处理过程中的人工参与。经过多年的研究与探索,SSL在理论研究与实际应用推广上均取得了可观的成果。分类是SSL中的一个重要问题,目前针对分类问题的SSL算法大多数以集中式方式实现,即将所有数据收集到一个处理中心进行
随着各种生活设备智能化程度的提高,语音交互引起了更多人的重视,声源定位作为语音交互的关键技术,因使用便捷,定位结果不受电磁波和环境光强影响,被广泛应用于各种领域。为了让其适用于更加复杂的场景,近年来,国内外越来越多的学者致力于提高声源定位系统的性能,其研究集中在抗噪性、定位精度、实时性、设备小型化以及硬件成本等方面。本文针对室内声源定位中混响声干扰的问题展开研究,其具体工作如下:第一,根据声源和传
目前学术圈出现了很多三维场景重建方法,但因传感器成本,应用范围大小等因素影响,很难将学术成果转化成生产力应用到项目中。激光雷达可在任何复杂环境下进行扫描采集能准确描述三维场景的激光点云数据,然而激光点云所描述的环境只有距离和强度信息,没有颜色纹理信息。而图像数据可通过运动相机进行采集,其具有丰富图像纹理信息,但不能描述深度信息,因此采用搭载激光雷达和运动相机的激光扫描仪采集数据并进行数据融合,已成
通常情况下,阵列波达方向(DOA)估计是利用传感器接收数据来估计某一时刻的信源角度,其在移动通信等众多领域中均有着重要的应用。而实际监测场景内,检测到的信源通常是移动的,因而需要我们进行实时的DOA跟踪。而目前多数的DOA跟踪算法都是使用多个连续快拍数据得协方差矩阵,且接收到的信号受脉冲噪声的影响难以准确估计。因此本文从单快拍量测和声矢量脉冲噪声模型入手将随机有限集理论运用到时变DOA跟踪领域,该
随着信息技术的飞跃发展,高精度定位技术在人类科研和生活中扮演着重要角色。我国的北斗三代卫星导航系统(Bei Dou Navigation Satellite System,BDS)已向全球开展导航定位和授时服务。传统载波相位差分技术的定位精度可达毫米级,但应用场景受限,需要已知位置的固定站。传统动态全球导航卫星系统(Global Navigation Satellite System,GNSS)绝