论文部分内容阅读
行人检测是无人驾驶和智能监控等应用的核心研究方向,是突破图像类传感器智能信息处理的关键难题。从机器学习模型到深度学习模型,行人检测的研究一直在不断发展,但仍然存在着诸多因素造成了行人检测的复杂性。图片或者视频中采集的人体信息具有各种姿态和形状,如穿着不同,姿态各异,观察视角多变等因素都具有一定的影响,另外还面临着遮挡、多样化场景等难题。本文所研究的重心是解决在密集场景下复杂背景和遮挡情况下的行人检测问题。
本文首先对于密集场景下的行人检测任务中主流深度学习算法存在的问题的本质原因进行探索和分析,根据对现有文献中对行人检测任务提出的解决方案的研究和总结,本文将密集场景中行人检测的任务存在的核心问题做了以下两点总结:第一,在行人检测的多任务中分类和回归不平衡;第二,可视特征在神经网络模型表征学习中的效率低。
然后,本文针对这两点核心问题提出三种相对应的解决方案:一)动态回归量。先将每个样本偏移量Δ调整为动态偏移量α(1-Cconfidence)βΔ,再对所有动态偏移量进行标准化,动态回归量加强了每个回归器的回归性能,消除多任务中分类主导回归的不平衡问题。二)从特征图融合效率角度出发,提出交叉旁路加权特征融合算法。在不同尺度的特征图融合时,设计采用未经信息损失的浅层和更高语义的特征图信息加权融合方式,提升特征图融合效率,。三)从注意力角度出发,提出遮挡模式和注意力对齐的算法。在模型训练阶段,遮挡模式感知层将分类置信度较低、回归损失较大且遮挡率配置超过遮挡阈值的候选区域判断为遮挡模式下的候选区域,并返回至候选区域注意力池化层,经过所有候选区域平均池化后分配新的权重,既能够处理正常模式的候选区域,也适用于遮挡模式的候选区域。
最后,本文在CascadeRCNN模型的基础上将级联的回归器拟合的偏移量改进为与类别置信度相关的动态偏移量,动态回归量的实验模型有效地减轻了行人检测任务中分类和回归的不平衡现象。从特征图融合效率的角度出发,以目标检测实验作为验证,设计并实验验证了交叉旁路加权特征融合对提高神经网络表征能力的有效性。从注意力角度,在带有动态回归量的CascadeRCNN模型的基础上增加的遮挡模式感知层和候选区域注意力池化层,在三个数据集上的测试结果可以证明,新模型相比于原始模型和其他算法模型,大大降低了正常模式和遮挡模式的漏检率,具有更为优秀的检测性能。
本文首先对于密集场景下的行人检测任务中主流深度学习算法存在的问题的本质原因进行探索和分析,根据对现有文献中对行人检测任务提出的解决方案的研究和总结,本文将密集场景中行人检测的任务存在的核心问题做了以下两点总结:第一,在行人检测的多任务中分类和回归不平衡;第二,可视特征在神经网络模型表征学习中的效率低。
然后,本文针对这两点核心问题提出三种相对应的解决方案:一)动态回归量。先将每个样本偏移量Δ调整为动态偏移量α(1-Cconfidence)βΔ,再对所有动态偏移量进行标准化,动态回归量加强了每个回归器的回归性能,消除多任务中分类主导回归的不平衡问题。二)从特征图融合效率角度出发,提出交叉旁路加权特征融合算法。在不同尺度的特征图融合时,设计采用未经信息损失的浅层和更高语义的特征图信息加权融合方式,提升特征图融合效率,。三)从注意力角度出发,提出遮挡模式和注意力对齐的算法。在模型训练阶段,遮挡模式感知层将分类置信度较低、回归损失较大且遮挡率配置超过遮挡阈值的候选区域判断为遮挡模式下的候选区域,并返回至候选区域注意力池化层,经过所有候选区域平均池化后分配新的权重,既能够处理正常模式的候选区域,也适用于遮挡模式的候选区域。
最后,本文在CascadeRCNN模型的基础上将级联的回归器拟合的偏移量改进为与类别置信度相关的动态偏移量,动态回归量的实验模型有效地减轻了行人检测任务中分类和回归的不平衡现象。从特征图融合效率的角度出发,以目标检测实验作为验证,设计并实验验证了交叉旁路加权特征融合对提高神经网络表征能力的有效性。从注意力角度,在带有动态回归量的CascadeRCNN模型的基础上增加的遮挡模式感知层和候选区域注意力池化层,在三个数据集上的测试结果可以证明,新模型相比于原始模型和其他算法模型,大大降低了正常模式和遮挡模式的漏检率,具有更为优秀的检测性能。