基于视觉机理的光照及形状不变性研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:blusky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机视觉和机器学习等领域,特征表达是最核心的研究内容之一。特征学习尤其是深度学习模型的出现,打破了计算机解决视觉问题的一般流程(特征+分类器),将特征表达和最后的推理、预测或者识别能够有机得结合在一起,极大促进了特征表达技术的发展。尽管特征学习(尤其是DBN[52]和CNN[71]等深度学习模型)在学术界和工业界都取得了重大的突破,但仍存在诸多问题:(a)无论人工提取特征还是特征学习模型都缺乏记忆建模能力,而记忆对生物认知影响深远;(b)无论人工特征模型还是特征学习模型都仅针对特定变化,而缺乏处理所有变化的统一模型;(c)深度学习模型需要大量样本进行训练,且缺乏数学理论或者生理学实验支持。与之相反,人类视觉系统却能很好地解决上述问题。在已有记忆的帮助下,人类可以通过观察少量样本就快速辨识出目标物体,无论物体以何种姿态(形状不变性等)处于何种背景环境(光照不变性等)中。近年来研究人员通过微电极记录等新技术分析单个细胞的触发频率等特性,大大促进了视网膜、视皮层等区域功能特性的研究。而这些研究成果为解决计算机视觉、机器学习等领域存在的问题提供一种新的解决思路。  在计算机视觉领域,提取对光照和形状鲁棒的特征仍是亟待解决的难题。而对于人类视觉系统,亮度感知和形状认知是最基本的任务。因此,如何探索人类视觉系统处理亮度和形状信息的机理,进而提出符合人类视觉认知机理的光照和形状不变性的计算模型具有重要意义。本文主要借鉴视网膜和视皮层的结构功能特征,展开对光照不变性和形状不变性这两个问题的研究,完成了在不同光照等背景条件下,利用少量样本即可快速识别不同姿态和尺寸物体的预期目标,其中主要的研究成果包括:  一、提出了一种局部非线性的高动态图像范围压缩算法。受人类视觉系统处理辐射光强的原理(人类视觉对暗区域变化更敏感)启发,提出一种局部非线性的色调映射模型,将高动态范围图像压缩到普通图像,从而解决了普通相机由于相机响应函数对辐射照度执行的非线性转换以及模拟信号转换成数字信号的量化过程而导致的光照变化问题。论文提出的局部非线性模型建立在生理学实验基础(Wiber-Fenchner理论[68]:人类感受辐射强度跟外界输入辐射强度成对数关系)之上,符合人类视觉系统处理光强的方式。在模型求解过程中,根据模型参数的物理意义从图像中估计出引导图像,再利用引导图像对模型求解进行约束,最后取得闭合解。本文中算法解决了原有线性模型中亮度失真问题,同时也克服了主流算法存在的整体对比度不高、亮暗区域细节丢失、光晕等缺点。算法只有线性复杂度,压缩结果在主客观评测指标中均优于主流模型。  二、提出一种基于视觉模型的快速高动态范围图像和视频的压缩框架。本文模拟视觉系统感光细胞和水平细胞的感受野处理特性,将高动态范围压缩逐步简化为映射矩阵估计问题,并根据映射矩阵的物理意义提出多种映射矩阵估计方法。本文算法在图像客观评价指标中与现有主流算法相当,但速度提升两到三个数量级。进一步,我们利用视网膜细胞在不同背景下对单位亮度辐射的激发反应曲线,提出一种快速处理高动态范围图像视频的压缩框架。相比于目前主流局部算法,该框架能够达到实时处理速度,且具有对比度清晰、无鬼影现象、对视频亮度突变鲁棒等优点。  三、提出一种面向仿射变化、平面外变化、背景变化等广义变化的深度网络结构。Poggio等人[106]探索记忆模块对视觉系统腹侧通路信息处理的影响,提出了处理仿射变化、平面外变化、背景变化等广义变化的统一模型M-theory理论,对解决已有学习模型存在的上述问题提供了一个新的方向。论文将该理论目前的浅层网络深度化,解决了当变化种类增加时,记忆库样本规模乘性增长的缺点。实验结果表明,M-theory理论可以搭建在已有的手工设计特征和学习特征的最上层,进一步拓宽已有特征处理不变性种类的范围和性能。  四、将M-theory理论的应用拓展到非几何变化中。M-theory理论目前仅应用于仿射变化、平面外变化等几何变换,论文将其拓展到非几何变换中。论文首先从理论上证明了当某种非几何变化可以表示为线性对称卷积(例如高斯模糊)的形式时,该变化可以利用M-theory理论获得很好的不变性。接着,论文在模糊和降质人脸图像识别应用中验证了上述结论的正确性。在非监督的情况下,算法可以利用随机图像(例如噪声点阵图像)作为记忆库样本进行训练并取得很好的识别效果。尤其在严重模糊等降质条件下,识别准确率大大高于目前主流算法。
其他文献
该文选择了最具有代表性的三种结构类型的风力发电机组,对它们的结构方式,运行特点进行对比分析;介绍了建立单机组风力机的一般方法并给出"恒速"型风力发电机组的建模示例;采
炼油工业是关乎我国经济的重要基础工业之一。为确保生产过程能够安全、稳定、持续、高效运行,利用智能在线专家系统对炼油厂进行生产的实时监测及事故预报,对实现安全生产,优化
经过长期的进化,鱼类逐渐演化出较强的适应性和游动能力,并可以完成一系列灵活和复杂的动作。这些特性逐渐吸引了越来越多的学者去研究鱼类的高游速和机动性等特征,并逐渐引入到
视觉是人类获取外部信息最主要的手段。初级视觉皮层对于视觉信息处理有着至关重要的作用。传统观点认为初级视觉皮层是一个结构和功能单一的结构,然而这个观点最近正在被许多
本文以北京市优秀人才培养专项基金、2004国家旅游局中国旅游目的地营销系统为科研任务,在分布式人工智能(DAI)和Agent技术的基础上,以国家旅游局金旅工程为应用对象,对大规模网
随着科技的发展,人们对控制系统的性能提出了越来越高的要求,这就要求控制科技工作者不仅仅要保证系统的稳定性,同时还要求其最优性,最优控制越来越受到研究学者的关注。实际工业
本文针对流程工业间歇生产过程中不同类型调度问题的复杂性和不确定性,采用具有优良性质的免疫优化算法进行研究,建立了确定性和不确定性调度系统的数学模型,提出了基于智能
本文以国家十五‘863’课题“月球探测机器人智能信息处理与导航技术研究”为背景,重点研究了月球探测机器人导航关键技术。对机器人目前已存在的导航体系结构进行了详细分析
肺癌是世界上最常见的恶性肿瘤,由于其高致死率,被列为癌症第一杀手。它的早期发现和治疗能够大大提高患者的存活率和生活质量。通常,由于肺癌的早期表现形式是肺结节,因而肺结节
口语自动翻译是语音、语言处理技术重要的应用领域之一,开展这项研究不仅具有重要的理论研究意义,而且具有极大实用价值。   翻译知识自动获取是口语翻译系统中的关键技术之