目标检测中的分类回归特征解耦

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ljyxq13571302523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测主要是计算机视觉领域是一个重要的研究方向,在人脸检测、车辆检测等众多应用中都发挥着不可或缺的作用。随着深度学习技术的发展,相比于传统目标检测方法,基于深度学习的目标检测算法在算法精度上取得长足的进步。相比于图像识别,目标检测不仅需要判别图像中存在的目标的类别,还需要回归目标在图像中的位置。然而目前主流的目标检测算法中,如Faster RCNN仍然存在特征耦合的现象。具体表现在,分类和回归部分的网络共享参数,特征分布高度耦合。针对上述问题,本文首先以Faster RCNN为例分析了分类和回归特征耦合对于目标检测算法的影响。具体表现在以下两点:(1)分类分数与目标框回归一致性的问题,即分类分数最高的框不一定是最回归最准的框。(2)适用于分类的特征不一定适用于回归定位;同理,适合于定位的特征也不一定是该目标最具类别判别力的特征。针对上述两个问题,设计了两种新颖的头部网络,对分类和回归特征进行解耦。首先,针对分类特征与回归预测不一致的问题,本文基于Faster RCNN设计了一种分类回归一致性预测网络。具体的,本文在分类与回归时,先对目标框进行一次回归,再提取回归后目标框中的特征进行分类,使得分类采用的特征与回归的预测输出保持一致,有效地缓解了分类分数与回归预测目标框不一致的问题。其次,针对Faster RCNN中分类回归部分存在的特征耦合问题,本文设计了一种任务解耦的特征提取方法。具体的,本文将分类和回归部分拆分到两个子网络分布进行。对于回归问题,为了采用坐标卷积的方式引入更丰富的空间知识。对于分类问题,本文采用了可变形卷积,以期对于不同尺度形状的目标有更好的适应性。最后,本文基于上述两个方法展开实验,在目标检测领域主流数据集MS-COCO上验证了算法的有效性。相比于Faster RCNN基线网络,本文提出的方法在m AP指标上带来了约3.2%的提升,相比于其他类似方法也表现出优越性。此外,本文对所提出的方法进行了消融实验,单独验证了每一部分组成成分的有效性。
其他文献
车联网(Internet of Vehicles)作为汽车驾驶、电子信息、交通运输等行业深度融合的新型产业形态,越来越成为各国竞相发展的重要方向。车联网以车内网、车际网和车载移动互联
随着移动通信网络的不断发展,有限的频谱资源成为了制约蜂窝网络性能的主要原因。设备到设备(Device-to-Device,D2D)通信基于蜂窝网络和蜂窝用户共享频谱资源,可以用来改善网
随着移动互联网技术的发展,使得移动终端设备和数据流量迅速增长,并且衍生出了一系列计算密集型和延迟敏感型的应用。然而移动终端设备的计算和存储能力有限,无法支撑计算密集型和延迟敏感型的应用,因此移动终端设备需要将计算复杂的任务卸载到云计算中心来执行,以此来减少服务延迟。然而,将计算任务迁移到云计算中心执行,会带来大量的数据传输,会引起核心网络的拥塞,更会对延迟敏感的用户带来严重影响。移动边缘计算(Mo
伴随着网络不断的高速发展,互联网早已成为人们日常生活中不可缺少的一部分。在互联网带来高速便捷的同时,也面对着严峻的安全问题。在传统互联网的网络架构中,网络设备配置复杂、不同类型设备扩展性差等缺陷问题,已经愈发的难以满足时代对网络灵活高效的管理诉求。软件定义网络(Software Defined Network,SDN)作为一种新型的网络架构概念顺应而生。这种全新的网络架构冲破了传统网络架构固有的垂
随着增强/虚拟现实、车联网和自动驾驶等新兴移动应用的飞速发展,移动终端因其自身的能力限制,无法满足移动应用对计算和存储资源的需求。移动边缘计算(Mobile Edge Computing,MEC)通过在网络边缘部署计算、存储和网络服务,能够有效地处理网络边缘产生的移动数据,满足了移动应用对于服务质量(Quality of Service,Qo S)的要求。但是,移动数据量爆炸式增长和海量设备连接给
脑电信号(Electroencephalogram,EEG)是机体自发的电活动,是一种具备时-空特性的生理信号,人情绪发生改变、产生不同想法、做出各种动作等,都会引起EEG的变化。因此,研究挖掘EEG中的特征,进而为严重运动失能患者搭建起与外界沟通的桥梁,成为脑机接口(Brain-Computer Interface,BCI)研究的重要方向。然而,由于EEG有着幅度微弱、信噪比低等特点,对它的研究
传统知识图谱主要使用从表格或文本数据中抽取到的三元组知识,随着相关技术的发展,出现了结合图像等其他模态数据构建多模态知识图谱的研究工作,在这个过程中噪声和冲突不可避免的被引入知识图谱。为了更好的应用知识图谱,需要对其中的多模态知识进行评估与验证。针对来自不同模态的三元组知识采用不同的方法进行评估,对于从文本中得到的知识,基于背景信息以及三元组上下文信息进行评估,对于从图像数据中得到的知识,基于场景
近年来,随着深度强化学习的不断发展,计算机已经在围棋、DOTA2等多个领域取得了超越人类的成绩。然而,数据利用率低、计算量大、训练单个智能体时间过长的问题仍旧阻挠着该领域的进一步发展。因此,提高数据利用率、降低所需计算量、减少训练时间对于深度强化学习领域有着十分重要的研究意义。有部分研究者利用迁移学习来帮助强化学习训练,迁移学习是一种利用源领域知识帮助目标领域训练的方法,然而如何去挑选源领域仍是一
近年来,神经对话回复模型在学术界和商业界都获得了巨大的成功,但已有的工作忽视了对话中所蕴含的立场。而立场是人类对话中的重要因素,人类往往首先对输入句产生立场,再依据立场作出相应的回复。为此,本文将在深度神经网络框架下探索融合立场的短文本对话生成方法。具体地,本文将从以下三方面进行研究:(1)面向短文本对话的立场检测:在构建微博短文本对话立场标注语料库基础上,本文分别使用Bi-LSTM和Transf
随着我国社会保险制度的不断完善,社会保险系统的信息化建设是社会保险向现代化迈进的必由之路。传统的窗口式服务已经被综合柜员制替代,因此,传统的单体架构程序已经无法满足社会保险的实际业务需求。为了有效的管理社保信息,设计、开发一套基于微服务架构的社会保险管理系统,具有重要的现实意义和实际价值。本文按照人力资源和社会保障部“网厅一体化、业务档案一体化、业务财务一体化、查询服务多样化”的要求,在了解国内外