基于卷积神经网络的复杂场景中目标识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:chenyongze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CNN(Convolutional Neural Networks)能够自动学习图像的高级语义特征,广泛的应用于图像处理领域中。快递logo是用来标识快递公司的重要标志,快速精准的对快递logo进行识别是快递智能一体化的关键。然而快递图片背景复杂,快递logo目标较小。如何在复杂场景中识别出小目标是图像识别技术的难点。论文从快递logo小目标识别着手,采用CNN网络建立具有强大识别能力的S-SSD模型,对复杂场景下的目标识别开展深入研究。  论文的主要研究内容和创新性成果如下:  1、对CNN网络的基础理论进行深入研究。充分研究卷积网络的基本架构;分析不同卷积对网络的优化以及目前卷积网络的评价标准。总结分析目前CNN网络以及目标检测识别的发展现状。  2、提出了SReLU激活函数。当x>0时,SReLU和ReLU的形式一致。当x<=0时,SReLU与Swish的激活形式一致。论文从理论上阐述SReLU激活函数的特性。论文在Mnist数据集及Cifar-10数据集上进行了实验,实验结果SReLU激活函数相比于ReLU的测试正确率有小幅提升。同时在Cifar-10数据集上分析了不同激活函数分别用于不同模型时的正确率,实验结果表明SReLU激活函数在ResNet中表现能力仅次于Swish,在ALexNet和DenseNet模型中表现最佳。  3、针对复杂场景中的小目标识别提出S-SSD网络模型。S-SSD模型通过多尺度的卷积及反卷积来提高模型的特征表达能力。论文在S-SSD模型中提出Sel卷积模块,通过多尺度的卷积增强模型的表达能力;同时在S-SSD模型中反卷积层模块来增强对小目标的识别能力。  4、采用WGAN(Wasserstein Generative Adversarial Net)进行数据增强。为调节正负样本的比例,论文首先对原图进行裁剪和镜像使得数据集的大小增强8倍,然后采用WGAN网络生成1/64裁剪的图像数据,以丰富图像特征的多样性,增强模型的鲁棒性。WGAN网络数据增强后数据集的数据大小变为原来的16倍。论文最终使用Adam算法训练模型。S-SSD模型的硬件平台为PC+GPU;软件平台为Python+Tensorflow+OpenCV。  实验结果表明S-SSD网络模型相对于SSD(Single Shot MultiBox Detector)模型其识别正确率尤其是对小目标的识别正确率有明显提升;在S-SSD模型中采用SReLU激活函数时,模型的识别正确率最高。S-SSD在保证网络正确率的前提下满足实时处理的需求,同时对小目标的检测能力强。
其他文献
为加强新型冠状病毒感染的肺炎疫情防控工作,把党中央、国务院有关疫情防控决策部署和山东省委、省政府及省国资委疫情防控工作安排落到实处,山东产权党委以“战备”状态采取
期刊
小波分析(Wavelet Analysis)是80年代后期发展起来的应用数学的分支,是20世纪数学研究成果中杰出的代表之一.它汲取了傅里叶分析、数值分析、泛函分析、样条分析等众多分支的
广东省启动新型冠状病毒感染的肺炎疫情防控一级响应机制以来,广东省交易控股集团所属的广东省药品交易中心立足平台功能和优势,强化国企担当,全力以赴做好药品耗材采购工作,
期刊
在研读大量文献的基础上,该文分析了各种入侵事件,在此基础上针对其攻击严重性设计实现了一种基于两级代理的分层的模糊入侵检测系统模型,此模型应有良好的分布性能和可扩展
超宽带(UWB)是一种新兴的短距离无线通信技术,具有传输速率高、功耗低、隐蔽性好、抗多径干扰能力强以及成本低廉等优点,特别是它不需要占用额外的频谱,可与现有的无线通信系
面对来势汹汹的新型冠状病毒感染的肺炎疫情,北京产权交易所(以下简称“北交所”)将做好疫情防控作为当前工作的头等大事,以“六个强化”为统领,迅速行动,精准施策,全力做好
期刊
该文在前人研究的基础上,继承了他人研究的优点和长处,改进了一些缺点和不足,创造性地提出了一些新的方法,构建了一个完整的基于口语语料库的机器翻译系统.该文以建立一个完
摘要:我们怎样提高学生学习语文的成绩和怎样去解决的办法。但计划一定要切实可行,既有长远打算,又有短期安排,执行过程中严格要求自己,快乐学习,磨炼学习意志。作为一名中学语文教师,随着中学语文课改的深入,教师在新时期的教学方式,教学观念应该发生变化,随着尊重学生个体差异,鼓励学生选择适合自己的学习方式的教学深入,中学语文教学中,越来越注重鼓励学生从多角度、多方位去思考地去写好作文,有意识地引导中学生选
该文的研究主要面向实时的电视新闻的说话人分割和追踪.该文在广泛的文献阅读基础上对此课题进行探讨,将此研究课题分成两大模块:声音分类和说话人分割.声音分类包括实时的静
超宽带系统利用纳秒及亚纳秒量级的极窄脉冲实现通信,使得系统对同步错误非常敏感,因此实现快速捕获的同步技术就显得尤其重要。此外,其强抗多径衰落性能就来源于极窄脉冲良