论文部分内容阅读
视频处理是人工智能中最基本的任务之一,其结果直接影响到后续的图像识别、分类、行为检测等结果。大量的研究表明,高维的视频数据并不是杂乱无章,通过研究我们发现高维的数据都会存在于低维的子空间中。子空间学习是视频分析中一个被广泛使用且十分有效的技术,已被成功应用于视频压缩、目标识别等任务中。本文主要对子空间分割、子空间恢复和子空间压缩在视频处理中存在的四个问题进行研究,具体贡献如下:
当前广泛使用的基于谱聚类的方法,如稀疏子空间聚类(Sparse Subspace Clustering,SSC)等,时间复杂度为O(n3),也不能很好地解决大规模数据分割问题。为了实现对大规模数据的快速聚类,本文提出了一种名叫随机探测(Random Sample Probing,RANSP)的快速子空间分割方法,其基本思想是通过随机选择种子点,并使用岭回归(Ridge Regression,RR)计算其它点与种子点的相关性,从而快速得到一个子空间的样本。通过使用WoodBury公式优化RR求解过程,RANSP的时间复杂度可达到线性,因此可以对大规模数据集进行快速子空间分割。
鲁棒主成分分析(Robust Principal Component Analysis,RPCA)的目标在于从污染的数据中获得低秩和稀疏部分,已被广泛地用于计算机视觉中、图像处理等领域中。然而,RPCA还存在可以被改进的地方,比如对核范数和稀疏项的约束。为了提高RPCA模型的子空间恢复能力,我们提出了一种截断加权(Truncated Weighting)的RPCA模型(TWRPCA)。在TWRPCA中,我们保留前10%的奇异值不变,其它的奇异值分别给予不同的权重。最后我们使用非精确增广拉格朗日乘子法(Inexact Augument Lagrangian multiplier,IALM)对TWRPCA模型进行了求解。
基于RPCA子空间学习的方法及其扩展的模型被成功地应用到运动目标检测中,但是不能较好地处理运动目标缓慢的情况,容易造成“空洞”的现象,尤其是在复杂背景下,如晃动的树叶、波动的湖面等。为了能够在复杂环境中检测运动缓慢的目标,针对动态背景使用了视频分割约束,针对缓慢运动采取了显著性约束,最后本文将视频分割(Segmentation)和显著(Salience)性约束融入到RPCA模型中得到SSC-RPCA模型。与其他文献不同,SSC-RPCA中的显著信息不需要提前计算而是在模型求解过程中得到的。
自编码器被广泛地使用在图像和视频压缩中,但传统的自编码器需要存储大量的网络参数。而且传统的自编码器需要特定的数据来训练网络,因此其泛化能力较弱。本文提出了一种3阶张量自编码器(3D Tensor Auto Encoder,3DTAE)子空间压缩方法,视频被压缩到非线性子空间中。在传统的基于自编码器的视频压缩方法中,视频被表示为网络参数和向量,而在本文方法中,视频被直接表示为网络参数。假设输入数据的维度是O(n),那么3DTAE网络参数的维度将是O(n1/3),因此可以满足视频压缩的需求。另外,由于视频被直接压缩为网络参数,基于3DTAE的视频压缩方法不存在测试过程,因此也不存在泛化问题。
当前广泛使用的基于谱聚类的方法,如稀疏子空间聚类(Sparse Subspace Clustering,SSC)等,时间复杂度为O(n3),也不能很好地解决大规模数据分割问题。为了实现对大规模数据的快速聚类,本文提出了一种名叫随机探测(Random Sample Probing,RANSP)的快速子空间分割方法,其基本思想是通过随机选择种子点,并使用岭回归(Ridge Regression,RR)计算其它点与种子点的相关性,从而快速得到一个子空间的样本。通过使用WoodBury公式优化RR求解过程,RANSP的时间复杂度可达到线性,因此可以对大规模数据集进行快速子空间分割。
鲁棒主成分分析(Robust Principal Component Analysis,RPCA)的目标在于从污染的数据中获得低秩和稀疏部分,已被广泛地用于计算机视觉中、图像处理等领域中。然而,RPCA还存在可以被改进的地方,比如对核范数和稀疏项的约束。为了提高RPCA模型的子空间恢复能力,我们提出了一种截断加权(Truncated Weighting)的RPCA模型(TWRPCA)。在TWRPCA中,我们保留前10%的奇异值不变,其它的奇异值分别给予不同的权重。最后我们使用非精确增广拉格朗日乘子法(Inexact Augument Lagrangian multiplier,IALM)对TWRPCA模型进行了求解。
基于RPCA子空间学习的方法及其扩展的模型被成功地应用到运动目标检测中,但是不能较好地处理运动目标缓慢的情况,容易造成“空洞”的现象,尤其是在复杂背景下,如晃动的树叶、波动的湖面等。为了能够在复杂环境中检测运动缓慢的目标,针对动态背景使用了视频分割约束,针对缓慢运动采取了显著性约束,最后本文将视频分割(Segmentation)和显著(Salience)性约束融入到RPCA模型中得到SSC-RPCA模型。与其他文献不同,SSC-RPCA中的显著信息不需要提前计算而是在模型求解过程中得到的。
自编码器被广泛地使用在图像和视频压缩中,但传统的自编码器需要存储大量的网络参数。而且传统的自编码器需要特定的数据来训练网络,因此其泛化能力较弱。本文提出了一种3阶张量自编码器(3D Tensor Auto Encoder,3DTAE)子空间压缩方法,视频被压缩到非线性子空间中。在传统的基于自编码器的视频压缩方法中,视频被表示为网络参数和向量,而在本文方法中,视频被直接表示为网络参数。假设输入数据的维度是O(n),那么3DTAE网络参数的维度将是O(n1/3),因此可以满足视频压缩的需求。另外,由于视频被直接压缩为网络参数,基于3DTAE的视频压缩方法不存在测试过程,因此也不存在泛化问题。