论文部分内容阅读
行人再识别是指以存在非重叠视域的多摄像机网络所采集的视频为输入,利用计算机视觉技术进行行人匹配的技术,即以算法自动确认不同位置的摄像机在不同时刻拍摄到的行人目标是否为同一人。行人再识别在公共安全和刑侦工作以及图像检索等场景中有很高的应用价值,具有很重要的研究意义。行人再识别以行人检测为基础,通过行人检测获得图像中的行人位置。本文主要研究了基于RetinaNet的行人检测算法和Meta-SR结合身份识别嵌入网络的行人再识别两个方面的内容。(1)速度和精度不可兼得的局面一直是目标检测任务的瓶颈。Yolo等单阶段检测方法检测速度很快,但存在检测精度不高、召回率低以及对小目标检测效果不好的问题;Faster R-CNN等两阶段方法能解决单阶段检测方法检测精度不高和小目标检测效果不好的问题,但检测速度较慢。RetinaNet研究了单阶段检测器精度不如两阶段检测器的主要原因在于单阶段检测器存在严重的“类别不平衡”问题,导致分类器训练容易失败,并针对性地提出焦点损失函数来解决由过量背景而引起的“类别不平衡”问题。本文以RetinaNet为基础,针对行人检测的应用特点,进行了如下三个方面的改进:1)改进了网络结构,改变特征提取方式;2)引入通道注意力模块,更好地学习对行人检测有效的特征;3)针对行人特点设计预选框,以提升行人检测的效果。实验证明本文改进的RetinaNet对于行人检测具有明显的性能提升。(2)现有的行人再识别方法大多假设行人图像具有统一的尺寸,且有足够高的分辨率,它们通常将所有图像归一化到相同的大小后输入到识别系统,而忽略了实际场景中查询图像通常是高分辨率的,而行人候选库中的图像往往是低分辨率的。事实上,由于监控视频的画面通常比较模糊,分辨率也比较低,行人图像的各种分辨率共存和尺度不匹配问题一直存在于现实世界里。为了解决这个问题,本文研究了 Meta-SR结合身份识别嵌入网络的行人再识别,通过融合行人再识别网络和超分辨网络,在输入到再识别模块之前对行人图像的分辨率进行适当的提升,有效地解决了行人再识别系统中各种分辨率共存和尺度不匹配给识别系统带来的困难。