基于生物认知机制的视觉识别模型与算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xsw2233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉是人类感知外部世界最重要的途径,人类生活各个层级的需求都要依赖视觉感知来提供服务。长期以来,计算机视觉领域的研究人员都试图复现甚至超越人类视觉系统,而视觉识别是其中最具挑战性的视觉任务之一。视觉识别不仅需要克服各种环境因素的干扰而准确理解图像中的基本视觉要素,还要结合各种先验知识来理解视觉要素具有的深层语义。视觉识别对许多科学问题和工程问题的解决具有关键的作用。经过多年的发展,视觉识别技术研究取得了一系列重要成果,并获得了广泛地应用;但与人类视觉系统相比,在通用性、泛化性、实时性方面还有较大差距。  近几年,随着图像获取、传递、分享方式的多元化和普及化,人们生活的方方面面都充斥着大量的图像和视频,广泛的应用需求对视觉识别技术提出了更高的要求。与此同时,随着实验手段和分析方法的逐步提升,生物学家对生物认知机制有了新的发现和解释,这为视觉认知功能的建模提供了新的思路。在这种背景下,本论文基于神经认知科学、神经生理学和心理物理学的研究成果,从生物机制启发的角度研究了视觉识别模型和算法,具体从框架模型设计、具体算法设计、算法性能提升这三个层次展开了研究,主要贡献包括:  (1)针对HMAX(hierarchical max-pooling)模型中匹配模板提取和使用方式造成的编码效率不高、编码特征不具有遮挡鲁棒性的问题,受相关生物证据启发,提出了一种通用视觉认知模型。其模拟了初级视皮层(V1)到前下颞叶皮质(AIT)的功能,并引入了广义记忆三阶段、初始认知、主动调控和神经元集群编码等机制。模型的编码阶段改进了HMAX模型,通过两级编码提升了其编码效率和特征辨识能力。模型的回想阶段提出了基于相似概率融合的识别框架,其结合先验信息以概率融合的方式实现多特征融合。不同类型视觉识别任务上的验证实验证明了该模型的有效性和通用性,尤其是遮挡情况下鲁棒的识别性能反映了该模型对人类视觉认知过程有着更加深入的理解和模拟。  (2)针对上面通用视觉认知模型在用于人脸感知时不能有效整合该感知过程特殊性的问题,加入面部“感知-记忆”机制,提出了人脸感知双通路计算模型。该模型由三个感知功能部分组成:面部结构感知部分使用级联卷积神经网络来估计面部关键部件的中心位置;面部表情感知部分提出了一种新颖的人脸表情识别方法,利用卷积深度置信网络的自学习能力来同步完成特征学习和特征选择;面部身份感知部分在基于相似概率融合的识别框架下加入了表情调控步骤和主动学习功能。实验结果证明了该模型对于不同表情下的人脸识别具有较好的鲁棒性,尤其是与基于深度学习方法的对比结果显示,该模型具有相当的性能和使用便捷的优势,适合于处理小样本的人脸识别问题。  (3)针对空间增强局部二值模式直方图算法没有考虑表情因素影响的问题,借鉴上面人脸感知双通路模型框架对其进行了改进,提出了引入表情因素的改进空间增强局部二值模式直方图算法,提升了原始算法在不同表情下身份识别的性能。此外,针对上面人脸表情识别方法使用的卷积深度置信网络学习能力有限的问题,利用了深度卷积网络中间层具有提取基本特征的能力,提出了一种更加简洁的表情识别方法,其不需要大量样本来学习如何提取表情特征。实验结果证明了这两个方法改进的有效性。  (4)针对以上三个模型和算法没有考虑复杂背景干扰的问题,提出了基于显著值回归的视觉显著物体检测模型,作为预处理步骤来滤除背景干扰从而提升以上模型和算法在真实环境下的使用效果。该模型通过单流全卷积神经网络来实现全图显著值回归,从而完成显著物体检测。针对网络结构特点,专门设计了平滑、鲁棒的损失函数,从整幅显著图和显著物体区域即全局和局部这两个角度来同时引导网络收敛。该模型是一个真正意义上的端到端网络,网络之外没有任何额外的预处理和后处理步骤,不仅提升了其感知能力,也极大地简化了检测过程。与多个近期顶尖性能模型相比,该模型拥有较少的参数数量,可以达到相当或者更好的检测精度,同时在处理速度上有较大提升。  本论文有效地结合了相关生物认知机制和信息计算模型,提出的模型可以为视觉认知任务的结构化建模提供新的思路和参考依据,提出的算法可作为基本单元用于实现更复杂的深层认知模型或用于构建机器人视觉系统。
其他文献
换热网络(heatexchangernetworks,HENs)是炼油化工装置中能量回收利用的一个重要单元,换热网络控制是节能降耗、充分进行能量回收利用的一个在重要手段。为了达到换热网络的
精馏塔是现代炼油化工生产中使用广泛的重要分离装置,也是能量消耗最多、要求最严格又最难控制的操作单元。长期以来,精馏过程的节能和优化控制一直是过程控制领域研究的重要
托辊在国民经济的各行各业扮演着十分重要的角色,尤其在大量使用带式运输机的采矿业、港口、电力等行业中,托辊更是发挥着巨大的作用。   本项目旨在为托辊自动化加工装配
学位
目前许多国家已进入老龄化社会,行动不便的人口数量越来越多,随着社会文明程度的提高,人们对残疾人的关心程度也越来越高。传统的轮椅依靠人力运动,且不具备上下楼梯的功能。
学位
EtherCAT是一种国际化、开放式、不依赖于设备生产厂商的高速以太网标准,EtherCAT以其实时性、可靠性和稳定性,在工业自动化领域,特别是运动控制领域获得了广泛的应用。Ether
学位
众所周知,只有控制系统得到良好的设计、整定和维护才能为生产企业带来长期、稳定和可靠的效益。但是,目前现场工程师缺乏有效的手段及时从数量众多的控制回路中识别出性能较
道路交通信息采集在智能交通系统中,担负着提供准确可靠的信息源以使整个智能交通系统得以顺利准确运行的重任。毫米波雷达交通检测系统作为获取路面信息的一种方式,因其特有
学位
钢筋笼作为桩基的重要组成部分,对于桩基的抗拉、抗拔和承载力具有至关重要的作用,但是桩基础一般位于地下或者水下,容易导致个别施工单位为追求更多的非法利益而降低质量要求,从
学位
温度是实际生产过程中常见的被控量,温控系统具有大范围工况、非线性和大惯性特性,采用单一模型无法准确描述模型特征,影响控制精度:采用单一控制策略无法满足整个工艺控制要
目标检测与识别是计算机视觉、人工智能等领域的研究热点,在工业、军事、医疗、安防监控等领域得到广泛应用。然而,随着实际应用的不断增加,人们对目标检测与识别系统的实时性要