论文部分内容阅读
为提高行人检测算法在实际应用中的准确率,提出在YOLOv4模型中融合Vision Transformer模型与深度可分离卷积的行人检测算法,该算法把Vision Transformer模型加入到YOLOv4模型的主干特征提取网络与空间金字塔池化层中,充分发挥该模型的多头注意力机制对图像特征进行预处理的能力,同时,用深度可分离卷积替换路径聚合网络中堆叠过后的常规卷积,以便于模型在后续的特征提取中能够提取出更多有用的特征。实验结果表明,改进后的YOLOv4模型Vit-YOLOv4构建的行人检测算法精确率和检测率都有所提高,进而有助于行人检测算法的构建,并使其在交通管理、防疫测温以及视频监控等领域发挥重要作用。