论文部分内容阅读
视频图像上的物体检测与识别技术通常都依赖于目标物体在形状、外观特征上的先验知识。对于这些先验知识,我们可以进行人为分析来建立具体特征上的判别规则,而这样得到的判别规则往往缺乏扩展性。在现代应用中更可行的方案是使用机器学习技术在已知的数据上对物体特征进行归纳,以此对未知数据做出判断。而在图像内容分析上的另一难点则是基础图像数据与高层物体对象之间的“语义鸿沟”问题,尤其在交通视频的处理上,我们的目标不仅仅是处理图像上的边缘或纹理,而是对图像中的物体进行判定和识别。针对这些问题,本文对图像特征提取、物体模型表达、机器学习分类方法以及图像物体搜索等领域进行了多方面的研究,分析了适应不同需求的方法,并提出自己的改进。
在图像特征提取上,本文首先回顾了灰度直方图、梯度等基础图像处理技术的特点及其在物体检测应用中的缺陷,在此基础上详细分析了以SIFT为代表的图像特征点检测和特征点描述方法。局部特征点描述符能够更好地适应视角、光照等条件改变引起的物体外观变化。得到更为稳定的图像特征后,我们使用矢量量化方法在这些特征上生成标准特征字典,并以标准特征构造BOF物体表达模型。BOF模型不依赖于物体的具体形状或外观特征,是一种通用的物体表达模型,同时还具有良好的扩展性。本文提出在BOF框架中加入特征点空间信息的方法,以此来更准确地表达结构化物体。
本文对数据驱动的机器学习方法进行了深入研究,总结了监督学习方法和无监督学习方法、以及生成模型和判别模型之间的差异,并以典型的聚类、分类算法为例分析了不同方法的使用范围。针对图像上物体识别这一具体应用,本文详细分析了最近邻搜索、朴素贝叶斯、支持向量机等当前普遍采用的方法,并以这些高效的分类算法为基础,结合滑动窗口搜索提出了通用的图像物体定位解决方案。通过引入分支定界搜索技术,我们进一步解决了穷尽式搜索中时间复杂度过高的问题。
最后,本文通过具体实验对上述研究结论进行了验证。在Pascal VOC、实际交通视频数据、字符识别等多个不同应用上对我们的原型系统进行了测试,并进行了在真实交通视频中检测识别多类物体的应用测试。出色的实验结果充分肯定了本文所提出方法的有效性与可行性。