论文部分内容阅读
图像有序性估计是计算机视觉中一个非常经典和有挑战性的问题,通常被定义成一个分类或者回归的任务。图像有序性数据集与普通图像分类数据集最大的区别是图像间存在着有序性关系,在计算机视觉领域有着非常广泛的应用,比如年龄估计、美学估计、颜值打分、图像质量评估等。有序性估计问题的标签可以是连续的或者离散的。近几年随着深度学习的广泛应用,该问题会呈现什么样的特点、与传统的方法有哪些不同、在哪些应用场景会得到进一步的发展?本论文将围绕这几个问题展开研究,具体研究内容主要分为以下五点:1.基于CNN的图像有序性估计近几年,随着深度学习的火热发展,许多应用问题将CNN模型看成一个应用工具,输入图片即可输出结果。基于深度学习的图像有序性估计问题也有类似的现象。本文针对两个问题:为什么CNN能在该问题上有较好的效果、如何让CNN在有序性问题上发挥更好的作用,在深度学习背景下重新思考图像的有序性估计,特别是针对有序性关系,提出了两种CNN模型。首先,提出了一种双任务的估计模型DTCNN(Double-task CNN model),一方面考虑有序性图像的类别属性,另一方面考虑其有序性关系。在该模型的基础上,本部分从三个方面进一步分析了DTCNN模型能起作用的原因:一是双任务间的关系;二是双任务中粗细化类别等级;三是双任务上的神经元激活情况。为了避免通过人为经验或者大量实验以选择合适的平衡因子,本文进一步提出了Risk-CNN模型,将有序性关系嵌入到分类任务中。基于贝叶斯风险规则,使用动态加权损失函数将类别信息和有序性信息进行融合。在两个不同的有序性数据集上,实验结果显示DTCNN和Risk-CNN都获得了非常有竞争力的性能。2.基于网格丢弃的图像有序性分类与理解图像有序性分类通常是给一张图片以有序性的离散标签。在实际的应用中,有序性的标签比较难获得,所以一般的有序性数据集都不够大,从而导致深度学习算法容易出现过拟合的问题。为了解决这个问题,许多的数据增强方法和神经元丢弃方法被提出,但是过拟合问题仍然十分严重。本文针对以上问题提出了一种网格丢弃的方法,随机地丢弃图片中的一些网格,以丢弃的图片作为训练样本。在学习过程中,将丢弃的网格位置也作为一种有监督的信息进行训练。最后,通过可视化类别激活图(CAM)来验证该方法的有效性,并发现网格丢弃的方法在模型学习过程中更多地关注在整个人脸区域。对于小数据集来说,网格丢弃的方法比神经元丢弃的方法更加有效,两者结合使用能达到最好的性能。在实验中,年龄估计的数据集Adience来验证了提出的方法的有效性。3.基于网格丢弃的多视角学习除了提出网格丢弃方法外,本文进一步发展了多视角的学习系统以提高模型的识别性能。一方面,提出了一个基于多视角最大池化(MVMP)的分类方法,其中每一张图片都以网格化的形式被随机地遮挡,以此产生多个视角的图片。另一方面,为了充分考虑有序性的关系,提出了一个基于多视角的最大池化的分类任务和基于平均池化的回归任务(MVMPAP),其中回归的任务有利于分类的任务。对比其他主流方法在Adience数据集上的结果,本文提出的两种方法获得了当前最好的性能。4.有序性视觉美学识别和理解视觉美学识别和理解是图像有序性估计的一个重要的应用问题。近几年,相比传统的使用手工特征和浅层分类器的方法,图像美学评估使用深度学习获得了非常好的性能。与识别问题类似,美学估计将图片按照美学属性划分成不同的等级。然而,受限于对美学的认知,目前还没有深入地理解为什么图片会呈现不同的美感,特别地,到底是图片的哪一部分有美感,美感的程度如何?事实上,大多数传统的方法都采用手工的特征来理解图片的美学和预测图片的目标/内容信息,但是在深度学习中,关于这一方面的研究较少。另外,美学估计是一个非常主观的评定,有时候很难给出一个非常明确的标签。这使得美学评估极容易导致不平衡的样本分布。为了处理这些问题,本文设计了一个端到端的CNN模型来同时执行图像美学分类和理解。为了应对不平衡的样本,提出了一种样本加权的分类方法,对重要程度不同的样本赋予不同的权值。事实上,将一些模棱两可的边界样本剔除也是一种特殊的样本加权分类方法。为了进一步理解深度CNN网络学到了什么,本部分在最后一个特征层上使用全局性的平均池化(GAP),以生成美学激活图(Aes AM)和属性激活图(Att AM)。美学激活图和属性激活图分别代表美学等级和美学属性在空间位置上的激活表现,特别地,Aes AM和Att AM主要考虑在深度学习模型中学到了什么。本部分采用公开的最大美学数据集AVA进行实验,并且获得了最好的性能。得益于Att AM,美学等级在内容上更有可解释性。最后,给出了一个简单的基于Aes AM的图像切割的应用。5.紧致的年龄估计模型年龄估计是图像有序性估计的一个重要应用。大量的研究比如Alex Net、Vgg Net、Goog Le Net、Res Net、Res Ne Xt、SENet等都侧重于在不同的数据集上提升性能,使得模型层数很深、参数量很多、计算量很大。然而,这些模型在实际应用中需要的存储和计算量太大,特别是对于一些嵌入式或者移动设备,难以满足实际需求。最近,Mobile Nets V1-V2系列和Shuffle Nets V1-V2系列相继被提出,用于减少模型的参数量、计算量和存储量,被称为轻量级的模型。但是这些系列工作对模型的性能有一些影响,往往只能在特定的数据上获得较好的效果,性能不够稳定。这主要是因为使用了可分离性卷积(Depth-wise separable convolution),打断了卷积操作中不同通道间的关联性,最终影响模型特征提取的能力。在本文中,针对小尺度图片和年龄估计问题,开展紧致性模型的设计工作。当给定一个数据集,如何设计一个实用的模型,使得该模型性能好、参数量和计算量少,刚好能适合该数据集,既不浪费参数也能获得较好的预测性能(既不过拟合也不欠拟合)。本章提出了一个紧致、高效、级联、基于周围环境的年龄估计模型C3AE。对比Mobile Nets/Shuffle Nets和Vgg Net系列工作,该模型分布仅需要约1/9和1/2000的参数量,但是能获得极有竞争力的结果。特别地,本部分将年龄估计问题进行了重新建模,提出了一种新的两点表示方法。通过该方法,能够得到一个只含两个非零元素的一维向量,并采用级联(Cascade)的方式将其嵌入到年龄估计网络中。另外,为了充分利用人脸周围的环境信息,提出了多支CNN网络,以更好地聚合多尺度的环境信息。在实验中,主要在三个不同的数据集WIKI-IMDB、MORPH II、FG-Net进行了测试,本文提出的方法获得了非常有竞争力的结果。