【摘 要】
:
在信息快速增长的时代,人类每秒钟可能会接收数以亿计的信息,一般认为这种数量级的信息已经远远超过了人实时处理信息的极限。人类视觉系统(Human Visual System)可以从输入的
论文部分内容阅读
在信息快速增长的时代,人类每秒钟可能会接收数以亿计的信息,一般认为这种数量级的信息已经远远超过了人实时处理信息的极限。人类视觉系统(Human Visual System)可以从输入的大量数据信息中提取出有价值的信息以供大脑皮层进行处理,如视觉记忆、信息分类、目标跟踪等。这种处理信息的机制就是视觉注意机制,它可以帮助人们在复杂的场景中提取信息并作出处理。计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力,还可以提升模型的学习能力,进一步指导计算机模拟人视觉认知过程。 人们在获取信息时,会把注意力集中在自己感兴趣的区域上,随着观察区域的改变,人的注意力也随之转移,这些注视位置的变化可以分为两部分:注视点和扫视路径。注视点是显著性预测领域的研究目标,它反映了场景中最“显眼”、最引人注目的区域,以静态显著性图来反映图像的显著区域;而扫视路径则是动态地反映人是如何选择感兴趣区域的,体现了这些区域之间的顺序性。 本文通过对扫视路径现有理论知识和预测模型的调研,提出了基于机器学习的扫视路径估计方法,并搭建了基于循环神经网络的扫视路径估计模型。扫视路径是人眼在注视点之间的转移,是一个时间序列,相比于现有模型,该模型基于循环神经网络建模,循环神经网络的结构适合用于处理时间序列,而扫视路径也是时间序列,因此使用循环神经网络建模能更好的模拟人理解场景的过程,通过分析该过程来了解人的视觉认知机理。 本文基于循环神经网络搭建了扫视路径估计模型,通过加入视觉注意机制来增强模型的性能。将图像做为卷积神经网络的输入,得到输入图像的特征向量,得到的特征不仅包含空间信息还包含位置信息。同时使输入坐标经过嵌入函数,得到表征其特征的权重矩阵。将图像特征和训练样本作为解码网络的输入来训练网络,训练好的网络可以对输入的图片预测得到扫视路径。 本文工作表明,在基于机器学习的扫视路径估计模型中,循环神经网络建模时间序列能够很好地模拟人眼扫视路径。
其他文献
基于溶质在径向色谱柱内输运的质量平衡方程,在线性分配条件下,得到了描述分离柱效和流出曲线形状各参数的理论表达式,也对柱效和流出曲线对称性的变化趋势加以系统讨论.结果
机器人捕捉运动目标是指机器人基于视觉伺服控制,完成运动目标的跟踪和抓取,是智能机器人的一个前沿应用课题,在工业、航天和娱乐等领域有良好的应用前景。机器人捕捉运动目
以高纯石墨电极、TiO2/Ti薄膜电极和甘汞电极,分别为阴极、阳极和参比电极,设计研制出了新型光-电-化学催化集成反应器.在紫外光和外加电场的作用下,不仅TiO2/Ti薄膜电极能对阳极槽中的酸性大红3R进行光电催化降解脱色,且在阴极上产生的过氧化氢及其与亚铁离子形成的H2O2/Fe2+催化体系,对阴极槽中的染料溶液也有良好的脱色降解作用.该催化集成反应器充分利用了光生空穴和光生电子,实现了在阳、阴
密度泛函理论(DFT)结合对称性破损(BS)方法(DFT-BS)研究了两个自由基NITR(Nitronyl Nitroxide)分别以顺式和反式构型与过渡金属Mn(Ⅱ)形成的八面体配位化合物的磁学性质,计算
随着全球信息化的不断推进,网络技术得到了飞速发展,致使通过网络来延伸控制距离的远程控制成为可能。Internet作为全球网络的后起之秀,以其无与伦比的技术优势正逐渐将全世界的
随着平板显示技术的发展,等离子显示器(PDP)以其优良的性能越来越受到人们的关注,具有广阔的发展前景。本论文涉及的科研课题就来源于四川长虹集团公司主导的等离子显示器项
供应链网络(Supply Chain Networks,SCNs)是在全球经济一体化、市场竞争日趋激烈化和客户需求多元化的背景下产生的,SCNs管理主要是通过控制和协调SCNs中各个节点成员及其行为,
立体视觉是一种较为常用的深度获取方法,可以通过不同的基线和相机焦距配置获得较广的深度感知范围,但只适合纹理丰富和明亮的场景。Kinect是一种基于红外主动结构光的深度像
“简单整转”:并非灵丹妙药 不可否认,目前地方广电无论是在保持技术优势还是在争取政策支持上,都开始显得力不从心。因此,很多人认为惟有整体转换才能让地方广电摆脱困境——一方面,利用整转后新增频道,开展新业务增加收入;另一方面,通过整转一次性推广新技术,有效屏蔽竞争对手的威胁,巩固现有的垄断格局。 这些设想如果能够实现当然再好不过,但笔者不免怀疑,仅仅依靠简单化、模式化的整转,真能改变地方广电