论文部分内容阅读
多目标跟踪任务可以被描述为在给定视频序列中确定多个目标的位置并随时间的推移维持每个目标的身份编号。现有的多目标跟踪方法通常根据目标间的外观相似度和运动相似度识别相同目标,区分不同目标,其中优良的运动相似度能够在一定程度上解决目标形变,目标遮挡,目标外观相似等问题,且准确的轨迹预测结果能够减小目标跟踪算法的搜索空间。本文主要研究如何使用循环神经网络构建考虑了目标的运动特性,场景信息和目标间相互作用的轨迹预测模型,以更准确,更真实的轨迹预测结果计算目标间鲁棒性更佳的运动相似度,提高多目标跟踪准确度。首先,为了解决多目标跟踪方法中传统线性轨迹预测模型无法较好地描述行人复杂运动特性的问题,本文基于长短时记忆网络,通过结构设计、超参数搜索、数据准备、模型训练和模型验证等流程构建了基于长短时记忆网络的轨迹预测模型LSTM_v,该模型在线下从大量真实多目标跟踪场景的行人轨迹数据中学习行人的运动特性,线上利用其“记忆性”综合考虑目标历史轨迹信息,生成目标隐含的深度运动特征,预测目标未来最可能出现的位置。其次,为了考虑行人在运动过程中可能会受到的周围环境的影响,本文选取三种场景信息,在LSTM_v模型的结构和参数基础上设计了针对性的输入结构,隐藏层结构和损失函数,得到了新的轨迹预测模型LSTM_b。而后,为了进一步考虑行人在运动过程中可能会和其他行人产生的相互作用,本文基于轨迹预测模型LSTM_v和LSTM_b,通过构建新的损失函数,提出一种分组处理和冲突处理方法,联合分组内目标间的轨迹预测模型或冲突目标间的轨迹预测模型进行决策级参数微调,对轨迹预测结果进行修正。最后,基于深度轨迹预测模型,本文实现了完整的多目标跟踪框架。第一步为检测响应构建外观模型,并仅根据外观模型生成保守的短时轨迹片段,计算轨迹片段间的外观相似度;第二步使用轨迹预测模型对轨迹片段进行准确的轨迹预测,进而计算轨迹片段间的运动相似度;第三步综合考虑轨迹片段间的外观相似度和运动相似度,使用经典的网络流模型完成最终的数据关联,得到每个目标的跟踪结果。通过在国际权威的多目标跟踪平台上测试本文跟踪方法,并和传统方法及其他国际领先的跟踪方法进行对比,验证了本文轨迹预测模型和多目标跟踪方法的有效性,明确了需要改进的问题。