论文部分内容阅读
随着多媒体技术的迅猛发展,图像和视频信息已经渗透到人们日常生活的方方面面,并且图像识别技术在近年来被广泛应用,在不同领域里占有着极其重要的地位。同时,图像和视频数据的迅速增长也促进了计算机视觉、模式识别和人工智能等相关领域的持续发展。图像识别作为计算机视觉领域中一个重要的分支,被广泛应用到航空航天领域、军事领域、公共安全领域、工农业等相关领域,具有广泛的应用价值。尽管当前图像识别的研究取得了一定的成果,但由于特征提取及识别算法的局限性,使得图像识别面临较大的困难和挑战。本文研究基于多对象关系的图像识别方法。首先利用对象分类器得到图像中的候选对象探测窗口。其中,所获得的对象探测窗口包含该探测窗口所属对象类别的标签信息、该探测窗口的位置信息及该探测窗口的得分信息。同时,本文根据高阶纯相关模型及贝叶斯公式获得图像中对象探测窗口之间的语义上下文、空间上下文及尺度上下文,并根据获得的对象探测窗口之间的语义上下文、空间上下文及尺度上下文信息构建对象关系图。且语义上下文、空间上下文及尺度上下文均属于局部上下文。为了获得图像的全局上下文,本文实现了一种双向长短时记忆循环神经网络(BLSTM-RNNs)模型。该模型将图像中所有候选探测窗口信息及图像的Gist特征作为输入数据,由于不同图像所获取的对象候选探测窗口的数目可能不同,BLSTM-RNNs模型能够有效地解决变长序列输入的问题。通过在训练数据集上训练BLSTM-RNNs模型,得到与每个对象探测窗口对应的BLSTM单元的前向隐藏层状态和后向隐藏层状态,并对获取的所有前向隐藏状态和后向隐藏状态计算加权平均,该均值融合了探测窗口序列中任一个探测窗口在探测窗口序列中的上下文信息,即图像中对象探测窗口序列的全局上下文特征。最后将该全局上下文特征与图像的Gist特征进行级联作为图像的全局上下文特征。最后本文采用遗传算法来完成基于多对象关系的图像识别。在本文的模型中,适应度函数是由对象关系图中单个对象的适应度、有边相连的两个对象之间作用的适应度及有团包围的多个对象之间作用的适应度构建的。其中,对象关系图中的对象即染色体中的基因,单个对象的适应度可以由探测窗口的得分、探测窗口的位置信息及上述得到的图像全局上下文特征确定,而两个及多个对象之间的适应度需结合构建的对象关系图来确定。在随机生成初始化种群后,根据该适应度函数去评估种群中每一个染色体的质量,适应度函数的值越大,那么质量就越高,然后筛选出精英染色体互相交配,自身变异等方式生产后代。经过了若干代后,精英中的精英就有可能存活,而不是精英的就会被逐渐淘汰,那么最后一代存活中的精英就是我们想要的最优解,即最有可能是正确的对象探测窗口组合。我们在标准图像库SUN09上验证本文所提出的算法的有效性,SUN09图像库中包含丰富的多对象关系。实验结果表明,本文提出的基于多对象关系的图像识别方法能够获得优于其他方法的识别效果。