论文部分内容阅读
随着多媒体与互联网技术的快速发展,数字图像的规模急剧膨胀,面对海量的复杂场景图像资源,如何对其进行有效地分类和管理,以方便图像资源的增量式存储管理和用户的快速准确的检索,就成为了机器学习和图像智能检索领域急需解决的难题,场景图像分类技术在这种情况下应运而生。针对传统场景图像分类需要手工设计特征并存在特征鲁棒性不强的问题,本文基于深度学习技术,用深度卷积神经网络提取场景特征进行分类,主要研究了以下几个方面的内容:1)迁移学习。本文直接利用在大规模数据集ImageNet上预训练的深度卷积神经网络CaffeNet模型来提取场景图像的初步特征,然后通过主成分分析法进行降维后得到最终的特征,最后将其输入到支持向量机分类器中进行标签预测。其中,深入探究了网络不同层输出的特征和主成分分析法降维对分类精度的影响。2)微调CaffeNet模型。对于小规模的场景数据集,由于过拟合的问题,一般很难从零开始去训练一个深度卷积神经网络。本文对CaffeNet模型最后一个全连接层进行微调,然后采用预训练CaffeNet的参数对微调后的模型进行初始化,最后根据不同层的特点来设置不同学习率并对整个模型重新进行训练,从而获得一个更具场景领域性的模型。3)特征融合。随着卷积神经网络的网络层次越深,越能捕捉到图像的全局特征,然而这样会不可避免的丢失隐藏在网络较低层中的图像局部特征。针对仅使用单层特征的不足,本文将卷积层的特征通过主成分分析法进行降维,然后将网络所有层的特征分别经过L2范数归一化后进行融合,从而提高特征的鲁棒性。