论文部分内容阅读
随着视频监控系统日渐完善、无人机应用逐渐普及以及5G技术日趋成熟,设备采集到的图像及视频数据飞速增长,数据处理的要求逐渐提高,检测算法也面临着挑战。目标的小尺寸降低了其检测精度,提高检测精度一般会带来计算量的大幅增长,这直接限制了检测算法的应用场景。目前各种应用中部署的目标检测算法大都执行静态推断,检测不同尺寸目标时会处理图像中的每个像素。算法在不同尺度的每个像素上花费相等的处理时间,导致整个处理过程比较低效。使用图像金字塔或者在RPN网络中增加锚点都会使这个问题更加严重。近两年针对小目标检测问题提出的算法集中在引入注意力机制方向,将目标检测的整体流程分为两个阶段。第一阶段称为区域生成阶段,在此阶段实现注意力机制,完成对目标的初步定位,第二阶段进行逐区域目标检测。利用图片背景占比较大的特点,算法通过忽略背景,获得对小目标的关注。但是他们共同的问题是实现注意力机制的方法太过复杂,模型整体速度没有得到提升甚至大幅下降,并没有完全发挥注意力机制的优势。本文提出的小目标检测算法与近两年小目标检测算法不同的是本文进一步将小目标检测流程的第一阶段分为区域感知任务和子区域生成任务,通过设计区域感知网络和子区域生成算法实现注意力机制。区域感知网络以语义分割网络为基础,旨在通过简单的模型快速获得感兴趣区域,减少总体处理的像素点数量。这可以大幅降低小目标检测的难度,最终达到加速检测流程同时保持检测精度的目的。在子区域生成算法中,针对小目标数量较多的场景,本文使用图像形态学操作和聚类算法处理尺寸不合理区域,控制区域数量和区域内目标尺寸在一定的合理范围。实验在TT100K和Vis Drone两个数据集上进行。实验结果显示本文小目标检测算法中区域感知网络和子区域生成算法的召回率明显高于直接使用目标检测模型进行检测。只针对可能存在目标的区域进行检测大幅降低了目标检测阶段对模型性能的要求,提高了检测速度并保持了高精度。在TT100K数据集上本文算法相比近两年模型,在保证精确检测结果的同时,处理速度提升十倍以上。区域感知模型大小小于10MB,平均单张图片处理时间平均仅12ms,像素点处理数量下降80%左右。同时在Vis Drone数据集上达到28.59%的AP,表明本文算法在目标密集的场景下也可以有很好的效果。