论文部分内容阅读
以微软Kinect为代表的深度传感器技术正在快速发展,使得同步获取稳定的彩色和深度图像成为了一种现实。由于价格低廉、操作方便,Kinect在计算机视觉,特别是涉及三维信息处理如三维目标检测与跟踪、三维场景解析等问题中,有着广泛的应用前景。遗憾的是,Kinect提供的RGB-D视频并不很完善,其深度图像在物体边缘处会有大量的数据缺失(无法探测到深度值),在其它任意位置也经常存在各种各样的数据噪声,另外,由于传感器的震动,其彩色图像也往往存在一定程度的运动模糊。 本论文针对如何利用RGB-D视频进行三维目标跟踪这一新的计算视觉问题进行了深入系统地研究。首先,针对RGB-D视频数据存在的问题,提出了新的深度图像复原和运动去模糊等预处理方法;其次,在此基础上,提出了一种利用RGB-D视频进行实时三维头部姿态跟踪的新方法和两种新的基于单应矩阵估计的三维平面目标跟踪方法。具体来说,论文的主要贡献包括: 1.针对深度数据缺失和噪声问题,分别提出了基于TV21正则的能量最小化和融合TV21正则化与拉普拉斯图的两种深度图像复原方法。首先,通过挖掘局部图像区域内深度和彩色图像的线性相关性,提出了一种最小化TV21正则能量函数的深度图像复原框架。该方法利用了全方差21范数(TV21)对梯度稀疏性进行建模,以更好地复原深度物体边缘和细节;在此基础上,融合了拉普拉斯图方法来更好地复原深度图像,并提出一种高效的优化方法来求解相应的目标函数。 2.针对彩色图像存的运动模糊,分别提出了基于模糊图像自相关图和基于图像金字塔梯度统计信息的运动模糊核大小自动估计的新方法。在第一种方法中,提出了一种改进的自相关图计算方法,消除了模糊图像中长直线结构导致的狭长自相关噪声,使自相关图能够真实反映运动模糊核的几何边界;还提出了一种基于学习的模糊核大小估计方法,利用模糊图像和清晰图像在低分辨率下梯度分布类似,而在高分辨率下则显著不同这一特性,通过预先学习金字塔结构下图像梯度分布和运动模糊核大小之间的关联模型,有效地估计引起图像模糊的运动核大小,并以此作为重要的输入参数,通过估计模糊核轨迹实际地去除运动模糊。 3.提出了一种基于最大相关熵规则的RGB-D三维头部姿态跟踪方法。以可见彩色光流和深度流计算为基础,该方法引入了最大相关熵规则作为姿态估计的损失函数,打破了传统方法中噪声是高斯这一假设,使得光流可以更好地处理跟踪过程中遇到的光照变化、遮挡,大尺度和大角度运动等复杂情况;并提出了一种高效的半二次优化技术,解决了最大相关熵计算复杂度偏高的问题。 4.针对三维平面目标,提出了在二进制描述子匹配的基础上,分别融合一阶和二阶图匹配进行单应矩阵估计的新方法。首先,为了克服传统特征描述子匹配代价过高的问题,提出了匹配快速的二进制描述子来估计单应矩阵的方法。在此基础上,把该问题转换成了一个图匹配问题,结合一阶图和二阶图,分别对关键特征点的一阶和二阶邻域信息进行建模,并作为一种新的代价函数优化二进制描述子的匹配结果;为了加快处理速度,利用了稀疏性约束构建一阶和二阶图,以保证图匹配问题可以得到快速的求解。最后,提出了一种图匹配和单应矩阵估计相互迭代优化的框架,使得二者可以反复利用对方的结果不断优化自身的精度,从而达到准确的单应矩阵估计效果。