论文部分内容阅读
计算机视觉的发展是未来智能化发展的一项基础工作,为了让智能机器融入到人类生活中,它们需要像人类一样去观察世界,而做到目标的识别与追踪是其一项基本能力。如今在深度学习的帮助下,追踪的效果虽然取得了令人振奋的结果,但是,深度学习本身就存在大量的未解之谜,以及以此为基础的追踪依旧具有可成长性。针对上述问题,本文在研究深度学习的同时提高相关深度目标追踪器的追踪性能。一方面,深度学习中,网络训练总是要花费太多的时间;另一方面,借助于深度学习的追踪器在速度和精度上依旧具有进步空间。因此,本文首先研究了如何减少深度学习的训练时间,其次研究了将在线类深度追踪器改变为离线类追踪器,最后利用外形信息提高了深度追踪器的追踪精度。本文的主要工作如下:第一,研究了小批量数据的数据分布对网络训练的影响。深度模型的训练时间长,很大程度上是因为网络在训练时,损失上下震荡从而造成了时间的浪费,尤其是使用随机梯度下降法时,网络总是容易在最优点附近震荡,浪费训练时间;相对的,使用批量梯度下降法,虽然网络收敛的好,但是硬件负担大,速度慢;已有的解决方法是使用一种折中的小批量梯度下降法。然而,在实际使用过程中,采用这种折中的方法,依旧会出现网络损失严重震荡的情况。本文通过设计实验,对比实验结果,探索出小批量训练数据的数据分布对网络训练损失具有很大的影响,结果表明,若要网络的损失较平稳地下降,至少要使得相邻小批量数据的数据分布保持一致,最佳的情况是能和整体的训练数据保持一致,这样能更快的拟合训练数据。第二,研究了在线类深度追踪器MDNet的离线化。一方面,基于深度学习的追踪器本身因为参数量众多,追踪器的速度上本就不具有优势,再加上复杂地在线更新过程,就更没有优势而言了;另一方面,一般情况下,离线类追踪器虽然追踪效果不如在线类追踪器,但是其追踪过程简单、速度占优。因此,研究如何将一个优秀的在线类追踪器变为一个效果不错的离线类追踪器具有一定的价值,在追踪测试平台上的实验表明,最终的离线化追踪器具有一定的竞争力。第三,本文提出了一种联合外形响应的深度目标追踪器。不少深度追踪器利用神经网络来提取目标的有关特征,然后把该特征作为匹配模板,在当前帧的搜索区域中进行目标匹配,以位置响应的大小来判断当前帧中哪些部分属于前景,哪些部分属于背景。基于此,本文可视化神经网络所提取出来的目标特征,结合传统的机器学习任务所提取的特征,研究了两者之间的关联性,并利用目标的外形信息在目标搜索区域得到目标的滤波位置响应,将其与网络所得到的带有噪声的位置响应进行叠加,从而加强目标位置处的响应强度,达到抑制位置噪声、提高追踪精度的目的。在目标追踪基准测试平台上的测试结果以及目标位置响应的可视化结果表明,该方法具有一定的可行性。