论文部分内容阅读
该论文从应用的角度出发,基于算法的实时性强、准确性高和鲁棒性好的视觉应用系统要求,通过将问题分摊给基于不同视觉任务的处理模块,并协调它们之间的关系,建立了对象实时检测和精确定位算法框架,主要包括两个组成部分:一是不变性的对象检测,即在对象平移、旋转、比例变化、光照变化和有噪声条件下粗略定位对象在图像中的位姿,主要采用了三种初始化方法:基于Blob分析、基于模型(一般模型和金字塔模型)优化和基于积分图像-AdaBoost特征训练的初始化.二是精确定位,即在粗略对象检测的基础上通过精确定位模型(统计形状和纹理合成模型)精确检测出对象的位姿.该算法框架的特点和优势在于:解决了传统变形模型应用中存在的初始化困难和初始化时间长的问题;较好地协调了视觉算法实时性、准确性和鲁棒性三者之间的矛盾;算法具有对平移、旋转和大小变化等条件下的不变性,解决了视觉算法对光线、背景、噪声等敏感难题;针对某一类对象可以根据需要有目的选取需要检测和定位的几何特征点;不同类别(刚性对象(Rigid Object)或变形对象(Deformable Object))和形状的对象可以采用统一的样本收集与创建、模型自动训练和搜索方法,因而可以应用于多种类型对象的检测和定位.将该论文所提出的算法框架分别应用在人脸几何特征点精确定位、表面贴装领域视觉对中和检测、光学数字字符的检测和识别上,取得了预期的效果:在人脸几何特征点的检测中采用基于金字塔的搜索方法比传统的基于一般模型优化的方法大大提高了搜索的速度;首次将基于积分图像-AdaBoost特征训练的方法应用于人脸变形模型的初始化,在提高算法实时性的同时,增加了算法的鲁棒性和适应性.在国内首次将变形模型的方法应用于表面贴领域的视觉对中和检测,避免了传统算法对光源的依赖程度和受光线变化和噪声等因素的影响,实现了几何特征点的精确定位.在光学数字字符识别上的实验结果表明该算法在抵抗噪声、对光线变化和对对象的平移、大小和旋转角度的鲁棒性等方面达到了与商业机器视觉软件SmartOCR中的数字识别模块相当的检测性能.基于Windows XP平台采用Visul C++6.0开发了一套实现和评估该论文所提出的算法的视觉软件系统.