基于深度学习的单幅图像光照估计

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lizhongfeng3218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着虚拟现实技术的快速发展,真实场景与虚拟对象的虚实融合技术促成了更具广泛应用价值的增强现实领域。增强现实应用要想获得理想的虚实融合结果,离不开对真实场景和虚拟对象间几何一致性和光照一致性的探究,其中光照估计是光照一致性研究的重点。由于真实场景多以图像或视频方式采集,图像中像素信息受到几何、材质、光照等因素难以拆分的复合影响,使得基于图像的光照估计面临巨大的挑战;进一步,当真实场景图像仅为单幅时,更是面临视角有限导致的信息不足,使得单幅图像光照估计更加困难。围绕单幅图像光照估计存在的难题,结合深度学习的预测和分类能力,提出了一个基于深度学习的单幅图像光照估计方案。
  该方案可分为两个部分,分别是全局光照的近似估计和局部光源的识别与强化。在全局光照的近似估计方面,结合深度学习与球面调谐光照,提出了从单幅输入图像中预测场景的近似全局光照的新方法。围绕球面调谐系数提出采样与重建算法,基于全景图像数据进行了数据集的扩展与重建,设计、训练并测试了近似全局光照预测网络,预测出场景全局光照的近似结果。进一步,在局部光源识别与强化方面,提出了基于全卷积网络进行迁移学习的新方式。识别并提取输入图像中的可见光源,将其分割成区域光和点状光两类,并针对光源类型提出强化后处理算法,在近似全局光照的基础上计算局部光源的强化属性。最后,将上述两方面工作整合搭建成一个在预测光照条件下的虚实融合系统,能从有限视角的输入照片出预测出真实、显著的光照变化,并加入虚拟对象,实现光照一致的虚实融合。
  通过实验仿真与结果分析,全局光照的近似估计能准确预测出场景的明暗变化趋势以及基准环境色调,局部光源的识别与强化则能大幅提升场景全局光照的变化幅度,让虚拟对象呈现出更为显著的光影特征。当加入虚拟对象后,能获得较为真实的虚实融合结果,并且有较高的预测准确率。在同时处理室内、室外场景的鲁棒性方面具有很好的表现,优于当下的现有成果。
其他文献
最近的研究表明,基于深度神经网络模型的分类器的预测结果在特定环境并不具有鲁棒性,针对输入的微小改动往往会导致截然不同的输出预测结果。对抗样本正是人为设计的导致深度学习应用被欺骗甚至是失效的一种技术方法,以最大程度地增加目标网络的损失。人工智能领域的安全问题是不可忽视的一个重要方面,研究如何减轻以及防御对抗样本的攻击对人工智能未来的发展以及应用有着深远的影响。  目前,针对对抗样本的防御工作大都是通
学位
足球比赛视频中的球员跟踪为足球赛事分析提供基础的数据支持,对智能体育视频系统的发展与应用具有重要意义。近年来,单目标跟踪领域出现的许多算法在各大数据集上取得不错的成绩,但截至目前,仍没有一种能够完美解决足球比赛视频中的球员跟踪问题的算法。  在深入分析足球比赛视频中球员目标特点的基础上,通过融合干扰项感知的颜色模型和目标感知的深度模型,提出并设计了一种球员感知的跟踪算法。颜色模型方面,提取目标球员
学位
深度学习已在图像识别、自然语言处理等领域取得有效成果,但随着深度学习模型规模和输入数据规模的扩大,神经网络的训练过程对计算机的性能提出了更高的要求。COStream是一种数据流编程语言,在实现神经网络程序时能基于数据流模型提供的并行性,充分利用多核计算资源,减少训练时间。但现有COStream文法难以快速构建深度学习模型。  针对上述问题,对COStream的文法进行扩展,设计并实现了sequen
学位
在以Kinect为代表的消费级深度相机进入市场后,基于深度相机的三维重建技术得到了快速发展并被广泛应用于游戏,设计,建筑等领域。但是,当前基于深度相机的三维重建技术仍然存在一些问题。在相机位姿计算方面,由于位姿计算依赖于传统图像特征提取,当场景纹理较弱或是重复纹理较多时,相机位姿计算不够准确,跟踪鲁棒性不足,直接影响到重建出的点云质量;在重定位和闭环检测方面,同样由于依赖场景纹理特征,导致重定位和
学位
使用智能手机进行三维重建具有设备成本低、方便携带、易于获取实时反馈等优势,随着智能手机计算性能的不断提高,在智能手机上进行实时三维重建有了可行性。目前在智能手机上的实时三维重建算法普遍存在位姿估计不准确,算法效率低,建模质量不高,只能重建小场景等问题。  本文为解决上述问题,设计了基于智能手机的实时三维重建系统。系统由三个线程构成,分别是:建模线程,后端优化线程以及显示线程,建模线程负责彩色图像获
学位
深度强化学习近年来在围棋算法、计算机游戏、机器人仿真控制等存在巨大状态空间的应用场景下取得了很大的突破,这得益于深度神经网络的函数逼近能力,也依赖于模拟器和计算资源,因为模拟器可以在计算资源足够的情况下快速并且近乎无限地生成智能体与环境交互的数据。但是在许多实际应用场景下,例如推荐系统、物流管理、能源系统优化、机器人实际控制中,数据采集是高成本且低频率的,从而导致数据稀缺。因此,若想使得(深度)强
学位
颅内血管疾病是近几年来死亡率居高不下的严重疾病,给全世界患者带来严重的生命威胁。而非创伤性血管成像技术(CT angiography,CTA)能够显示大脑各大动脉细节,能够辅助医生早期发现患者颅内血管的隐藏病变。该技术不仅对患者安全高效,而且是辅助颅内血管疾病诊断的常用技术之一。而在医生分析CTA影像的大脑血管病变状况过程中,首先需要去除CTA影像中的颅骨部分,再进行血管的三维重建成像。但在目前提
学位
场景的实时三维重建是一个非常热门的研究领域,其目的是使用消费级可见光相机对场景进行扫描,自动生成一个精确完整的三维模型,该算法在增强现实游戏、机器人室内导航、AR家具展示等领域都有广泛的应用前景。此外,该领域注重实时性,也就是在扫描的同时生成三维模型。现有的研究只能使用稀疏点云进行实时网格构建,生成的模型不能充分表现场景的精确三维信息,从而难以进行应用。因此,研究更高精度的实时三维重建算法非常有必
随着医疗技术与人工智能技术的不断发展,形体健康渐渐成为了女性群体普遍关注的问题。女性在怀孕前后形体通常会产生较大的变化,其中异常的变化会对身体产生危害。快速智能的形体评估可以帮助医生更加准确高效地定位并量化形体异常,具有较大的研究意义和应用前景。  运用深度学习和图像处理相关技术,设计并实现了一套形体评估系统。该系统首先通过kinect深度相机采集体表的深度图像,经过预处理后分割出人体区域。然后通
学位
医学图像分割是计算机辅助诊断与治疗的基础,它对于提高医生关于心包积液、心包肿瘤等疾病诊断的效率和准确率来说有着独特的价值。研究基于深度学习的心包分割算法能够有效提高医生诊断的效率和准确率。  首先针对心包分割目前还未有公开数据集的问题,在专业医生的指导下,使用医学图像标注工具ITK-SNAP,制作了心包分割数据集,数据集结果得到了医生的认可。  其次,针对心包在图像中的特点,将三维卷积神经网络作为