基于深度学习的图像有序性估计研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:wyj8332606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像有序性估计是计算机视觉中一个非常经典和有挑战性的问题,通常被定义成一个分类或者回归的任务。图像有序性数据集与普通图像分类数据集最大的区别是图像间存在着有序性关系,在计算机视觉领域有着非常广泛的应用,比如年龄估计、美学估计、颜值打分、图像质量评估等。有序性估计问题的标签可以是连续的或者离散的。近几年随着深度学习的广泛应用,该问题会呈现什么样的特点、与传统的方法有哪些不同、在哪些应用场景会得到进一步的发展?本论文将围绕这几个问题展开研究,具体研究内容主要分为以下五点:1.基于CNN的图像有序性估计近几年,随着深度学习的火热发展,许多应用问题将CNN模型看成一个应用工具,输入图片即可输出结果。基于深度学习的图像有序性估计问题也有类似的现象。本文针对两个问题:为什么CNN能在该问题上有较好的效果、如何让CNN在有序性问题上发挥更好的作用,在深度学习背景下重新思考图像的有序性估计,特别是针对有序性关系,提出了两种CNN模型。首先,提出了一种双任务的估计模型DTCNN(Double-task CNN model),一方面考虑有序性图像的类别属性,另一方面考虑其有序性关系。在该模型的基础上,本部分从三个方面进一步分析了DTCNN模型能起作用的原因:一是双任务间的关系;二是双任务中粗细化类别等级;三是双任务上的神经元激活情况。为了避免通过人为经验或者大量实验以选择合适的平衡因子,本文进一步提出了Risk-CNN模型,将有序性关系嵌入到分类任务中。基于贝叶斯风险规则,使用动态加权损失函数将类别信息和有序性信息进行融合。在两个不同的有序性数据集上,实验结果显示DTCNN和Risk-CNN都获得了非常有竞争力的性能。2.基于网格丢弃的图像有序性分类与理解图像有序性分类通常是给一张图片以有序性的离散标签。在实际的应用中,有序性的标签比较难获得,所以一般的有序性数据集都不够大,从而导致深度学习算法容易出现过拟合的问题。为了解决这个问题,许多的数据增强方法和神经元丢弃方法被提出,但是过拟合问题仍然十分严重。本文针对以上问题提出了一种网格丢弃的方法,随机地丢弃图片中的一些网格,以丢弃的图片作为训练样本。在学习过程中,将丢弃的网格位置也作为一种有监督的信息进行训练。最后,通过可视化类别激活图(CAM)来验证该方法的有效性,并发现网格丢弃的方法在模型学习过程中更多地关注在整个人脸区域。对于小数据集来说,网格丢弃的方法比神经元丢弃的方法更加有效,两者结合使用能达到最好的性能。在实验中,年龄估计的数据集Adience来验证了提出的方法的有效性。3.基于网格丢弃的多视角学习除了提出网格丢弃方法外,本文进一步发展了多视角的学习系统以提高模型的识别性能。一方面,提出了一个基于多视角最大池化(MVMP)的分类方法,其中每一张图片都以网格化的形式被随机地遮挡,以此产生多个视角的图片。另一方面,为了充分考虑有序性的关系,提出了一个基于多视角的最大池化的分类任务和基于平均池化的回归任务(MVMPAP),其中回归的任务有利于分类的任务。对比其他主流方法在Adience数据集上的结果,本文提出的两种方法获得了当前最好的性能。4.有序性视觉美学识别和理解视觉美学识别和理解是图像有序性估计的一个重要的应用问题。近几年,相比传统的使用手工特征和浅层分类器的方法,图像美学评估使用深度学习获得了非常好的性能。与识别问题类似,美学估计将图片按照美学属性划分成不同的等级。然而,受限于对美学的认知,目前还没有深入地理解为什么图片会呈现不同的美感,特别地,到底是图片的哪一部分有美感,美感的程度如何?事实上,大多数传统的方法都采用手工的特征来理解图片的美学和预测图片的目标/内容信息,但是在深度学习中,关于这一方面的研究较少。另外,美学估计是一个非常主观的评定,有时候很难给出一个非常明确的标签。这使得美学评估极容易导致不平衡的样本分布。为了处理这些问题,本文设计了一个端到端的CNN模型来同时执行图像美学分类和理解。为了应对不平衡的样本,提出了一种样本加权的分类方法,对重要程度不同的样本赋予不同的权值。事实上,将一些模棱两可的边界样本剔除也是一种特殊的样本加权分类方法。为了进一步理解深度CNN网络学到了什么,本部分在最后一个特征层上使用全局性的平均池化(GAP),以生成美学激活图(Aes AM)和属性激活图(Att AM)。美学激活图和属性激活图分别代表美学等级和美学属性在空间位置上的激活表现,特别地,Aes AM和Att AM主要考虑在深度学习模型中学到了什么。本部分采用公开的最大美学数据集AVA进行实验,并且获得了最好的性能。得益于Att AM,美学等级在内容上更有可解释性。最后,给出了一个简单的基于Aes AM的图像切割的应用。5.紧致的年龄估计模型年龄估计是图像有序性估计的一个重要应用。大量的研究比如Alex Net、Vgg Net、Goog Le Net、Res Net、Res Ne Xt、SENet等都侧重于在不同的数据集上提升性能,使得模型层数很深、参数量很多、计算量很大。然而,这些模型在实际应用中需要的存储和计算量太大,特别是对于一些嵌入式或者移动设备,难以满足实际需求。最近,Mobile Nets V1-V2系列和Shuffle Nets V1-V2系列相继被提出,用于减少模型的参数量、计算量和存储量,被称为轻量级的模型。但是这些系列工作对模型的性能有一些影响,往往只能在特定的数据上获得较好的效果,性能不够稳定。这主要是因为使用了可分离性卷积(Depth-wise separable convolution),打断了卷积操作中不同通道间的关联性,最终影响模型特征提取的能力。在本文中,针对小尺度图片和年龄估计问题,开展紧致性模型的设计工作。当给定一个数据集,如何设计一个实用的模型,使得该模型性能好、参数量和计算量少,刚好能适合该数据集,既不浪费参数也能获得较好的预测性能(既不过拟合也不欠拟合)。本章提出了一个紧致、高效、级联、基于周围环境的年龄估计模型C3AE。对比Mobile Nets/Shuffle Nets和Vgg Net系列工作,该模型分布仅需要约1/9和1/2000的参数量,但是能获得极有竞争力的结果。特别地,本部分将年龄估计问题进行了重新建模,提出了一种新的两点表示方法。通过该方法,能够得到一个只含两个非零元素的一维向量,并采用级联(Cascade)的方式将其嵌入到年龄估计网络中。另外,为了充分利用人脸周围的环境信息,提出了多支CNN网络,以更好地聚合多尺度的环境信息。在实验中,主要在三个不同的数据集WIKI-IMDB、MORPH II、FG-Net进行了测试,本文提出的方法获得了非常有竞争力的结果。
其他文献
<正>徐渭是中国绘画史中的重要人物,艺术面貌独树一帜,影响深远。以往的研究或集中于讨论他的书画艺术与其放荡不羁个性之间的关系,与其坎坷人生经历之间的关系,乃至与明代中
对电纸书能否替代纸质书作出阐释,有助于人们科学选择和利用阅读媒体。在探讨电纸书特点的基础上,分析电纸书与纸质书、计算机、手机相比在阅读方面的不足,得出结论:电纸书目
广西六普数据显示,随着广西经济社会的发展与居民收入水平的提高,广西家庭住房状况明显改善、住房质量显著提升、居住水平明显提高,但广西住房困难户比例还较大、住房紧张状
胃癌的发病遍及全世界,死亡率居全球所有恶性肿瘤死亡率的第二位。主要的治疗方法是手术切除病灶。但术后5年总体生存率较低,近年来出现了以手术切除为主加术后化疗、免疫治
首先阐述科技成果转化的知识管理与创新人才耦合关系的实现主体,接着分析转化各阶段中创新人才的知识,最后详细分析两者耦合的关键耦合域的内容。
绝缘栅双极型晶体管(Insulated Gate Bipolar Transistor,IGBT)同时具有MOS(Metal Oide Semicondutor)的栅控制能力和Bipolar的电导调制效应。但是IGBT是一个单向导通器件,在
微信作为时下最热门的移动社交平台,正在改变着人们的沟通方式和生活方式。将微信公众平台应用到图书馆的阅读推广中,可以提高传播效率和服务质量。文章调查分析了广东省37所
中国书法艺术凝聚着几千年的中华文明,维系着中华民族的共同精神追求。书法的艺术实践,不仅仅是创作作品的本身,更是对中华民族千年以来生活方式的传承,是引导创建集体人格价
随着网络传播技术的发展,网络文学也以全新的姿态出现于文学殿堂。网络文学从创作过程、表现内容到欣赏批评都表现出与传统纸质文学迥然不同的特性。创造主体的自发性与随意
<正>自2004年发现石墨烯至今[1],石墨烯的相关性质开始被人们慢慢挖掘。石墨烯是由sp2杂化连接形成的单原子层蜂窝状二维原子晶体,是世界上最薄的新型二维纳米材料,其厚度仅