论文部分内容阅读
自20世纪90年代以来,随着数字高清电视、数字立体电视、网络流媒体、无线移动视频通信、高清视频监控等视频应用的广泛普及,海量视频数据的存储和传输成为亟需解决的两大难题。深度学习已经在人脸识别、目标检测及追踪、动作识别、视频内容审核等多个视频领域取得了重要突破,然而深度学习在视频压缩领域并未被充分研究。本文将利用深度学习在视频处理方面的优势,使用深度学习来提升视频压缩的性能。视频压缩方法有两种思路,一种是通过压缩单张视频图像以去除视频图像中的空间冗余,另一种是通过视频插帧以去除视频帧间的时间冗余。基于这两种思路,本文主要研究以下内容:(1)为了去除视频图像中的空间冗余,本文首先设计了基于显著性图的自编码网络。编码时,将待压缩的视频图像帧输入网络,然后通过卷积层逐步减少图像的特征图数目和空间尺度,将图像从像素空间映射到新的特征空间。然后通过量化、CABAC熵编码去除特征空间内的统计冗余,通过显著性图指导像素分配,最后输出码流得到编码结果。实验结果表明,在标准kodak测试集上,本文提出的自编码网络在同等低码率情况下压缩效果优于JPEG,同时优于近期发表的一种基于长短时记忆网络的压缩方法以及另一种基于变分自编码器的压缩方法。(2)为了去除视频中相邻图像帧之间的时间冗余,本文设计了一种基于多尺度卷积网络和对抗训练的视频插帧方法。采用多尺度结构更能捕捉物体的运动信息,而对抗训练能使插帧结果更符合人类的视觉系统。该方法通过GAN的生成器得到插帧结果,通过GAN判别器判别插帧结果的准确性。最后通过实验对比了损失函数的选择和多尺度结构对插帧结果的影响。实验结果表明,与近几年提出的基于光流估计的深度卷积网络(OFP)、基于深度立体像素光流的卷积网络(DVF)以及另一种基于多尺度网络的工作(ByondMSE)相比,本文提出的方法在UCF101以及HMD5-51视频数据集上均能取得更好的插帧效果。