基于语义特征的图像合成和可视表达关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xqd2cd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,人们对信息的获取和处理逐渐从单一模态转换成多种模态。近年来,人工智能在传统的计算机视觉和自然语言处理等单模态任务上取得了很多激动人心的进展,但是目前的机器智能离通用人工智能仍有很长的路要走。为了理解多模态相互交融的真实环境,人工智能需要同时处理声音、文字和图像等多模态数据,实现多种模态信息的融合和互补。然而,数据的多模态性使得数据表征、信息检索、知识发现和语义推理等应用面临巨大挑战。
  多模态学习目的在于发现不同模态之间的对应关系,理解、学习和推理多模态信息,使得人工智能可以从多角度深入理解真实世界。本文聚焦于面向混合模态数据的图像合成和可视表达关键技术,基于低层模态信息驱动理解不同模态数据的结构特性,结合高层语义信息提取内容和推理多模态数据关联,根据语义相似关系映射生成的高质量图像,用于辅助人脑智能进行艺术创作、数据可视化以及提升机器智能认知真实世界的能力。根据模态的类型,本学位论文从三个方面研究基于语义特征的图像合成和可视表达技术。(1)近模态变换:源模态和目标模态在数据结构上比较近似,但映射关系复杂;(2)跨模态生成:源模态和目标模态的数据结构有巨大差异,需要完成跨模态传译;(3)单模态表达:缺少目标模态真实数据,需要人工设计高效的无监督算法进行可视化编码。
  本学位论文以基于语义特征的图像合成和可视表达成为目标,围绕多模态学习从不同模态转换到图像模态的语义特征一致性约束展开研究。本文的主要研究方向和贡献概括如下:
  基于近模态变换的低光照图像增强方法低光照图像增强的目标是提升图像亮度并且显示较暗区域的隐藏内容。由于复杂的映射鸿沟,图像增强往往是一个不适定问题,解的唯一性和稳定性不能够满足。我们通过增加输入信息约束解空间范围,采用多重曝光融合的方式融合不同照明条件下曝光良好的区域来构建准确的初始图像,并且引入边缘增强模块借助边缘信息来完善初始图像。
  基于跨模态生成的跨模态文本生成图像方法自然语言描述生成真实图像的核心挑战在于克服模态异构导致的语义鸿沟问题,从而捕获文本和图像从底层特征到高层语义的多模态表示,灵活地构建视觉内容和文本之间的跨模态关联。我们基于动态记忆网络对图片特征和词向量进行跨模态注意力优化,根据初始图像内容选取并且优化重要的词层次信息,提升自然语言描述到真实图像传译的真实性和准确性。
  基于单模态表达的高效图布局方法图数据可视化的任务是在保持图空间中两个节点间的相似度的同时,将结构化的图数据转换为节点链接图。本文采用稀疏距离矩阵、负采样算法和层次布局等三种方法把图布局算法的时间和空间复杂度降低到线性复杂度,从而支持在单机上快速布局具有数百万个节点的大规模图。
  基于单模态表达的交通网络可视化方法本项目设计了无监督的城市交通网络嵌入方法,根据交通网络和人群移动行为的相互影响编码城市交通网络节点的语义属性,构建交通网络的向量化表达。我们在保持态势感知的同时将城市地点投影到二维散点图,让领域专家从人群移动性的角度了解城市交通网络的语义相关性。我们设计并实现了一个支持探索和分析城市地点语义关系的可视分析系统。
其他文献
动态图数据在现实生活中十分普遍,科研合作网络、家谱树、足球传球网络、社交媒体网络,都可以被建模成动态图数据。分析这类数据的演变规律可以帮助领域专家发现潜在的有用信息。然而随着数据的累积,动态图数据中包含着大量的图结构信息和复杂的时序变化,这给领域专家识别有用信息,分析潜在的演变模式和特征结构带来了极大的挑战。如何解决动态图数据结构复杂、数量巨大、长度不定的问题,有效地提取动态图数据中的演变模式,总
室内场景重建问题是计算机视觉中的一个重要研究课题,其所得到的场景稠密三维模型在很多领域都有重要应用,例如室内场景的三维模型作为地图可以辅助机器人进行路径导航以及避障、稠密的三维场景重建结果作为输入可以解决传统目标识别、跟踪以及检测方法无法解决的场景遮挡问题等等。近年来随着消费级深度相机的不断普及,基于RGB-D数据的室内场景重建越来越受到关注。虽然在科研人员不懈努力下,三维重建算法已经取得了长足的
更高的准确度与计算效率一直是基于物理的仿真所追求的终极目标。近年来针对特定问题开发的高效算法和高速发展的计算能力共同推动了物理仿真的发展,然而实际应用中物理仿真所需求的计算资源和时间成本往往还是会超出预算。因而实践中不得不在速度和准确度之间做一定取舍,比如降低仿真规模、算法复杂程度等来换取更好的运行性能。与此同时,处理器速度与存储容量的增长推动着计算能力的爆炸式增长,而相比之下,时钟频率和存储访问
学位
近三十年来,布料仿真一直是计算机图形学领域最热门的研究方向之一。针对布料仿真的各个阶段(布料模型、时间积分、拉伸限制、碰撞处理等)出现的不足,研究者做了大量研究,并取得了很好的成果。目前,基于物理的布料仿真已经可以生成高真实感的布料形态,并广泛应用于服装设计、电影、游戏等领域。其中,以虚拟试衣镜为代表的实时虚拟试衣应用一直吸引着科研界和工业界的目光,数款虚拟试衣系统被相继推出,但大多缺乏动态性和真
数字化口腔诊疗技术的发展,使得患者信息采集、治疗方案设计、治疗效果评估等诊疗环节更加全面、准确且安全。使用光学成像设备和锥形束计算机断层扫描成像(Cone beam CT,CBCT)设备可以快速获取患者的三维网格数据和CBCT图像数据。通过观察患者医学数据中的相关组织结构,医生可以实施更为有效和个性化的治疗。如何从患者的医学数据中抽取得到有助于临床诊疗的组织结构信息,是数字口腔技术应用发展的关键。
学位
作为机器学习的一个重要分支,强化学习是一类在线学习的方法,其目的是最大化与环境交互所获得的长远回报。近年来,强化学习领域的研究取得了长足的进展,在机器人控制、游戏与博弈、仿真模拟、调度与优化等领域取得了广泛的应用。然而,现有强化学习方法仍面临着一些挑战。相比于其他类型的机器学习方法,强化学习的样本数据利用率往往较为低下,针对一些高维空间问题时探索效率不高,以及算法健壮性差等。本文从强化学习的样本数
学位
近年来,随着传感器技术的发展和智能设备的普及,各行各业收集获取了海量的时空数据,它们通常记录了数据对象的时间、空间和其他各类多元属性信息和特征。以数据挖掘、人工智能技术为基础的时空数据分析技术迅速成为科研、应用领域的热门课题,并被广泛地应用于诸如城市规划决策,交通监督管理,人群行为模式分析等应用场景中。然而,由于时空数据的多源异构性和分析任务的复杂多样性,使得现阶段的数据的管理和分析面临了诸多挑战
学位
随着信息技术的不断发展和人们通信需求的不断增加,催生出各式各样的网络系统和服务。一方面,用户数量的增长使得有线IP网络的规模变得越来越庞大,多跳连接成为了地理位置分布广泛的主机间正常通信的基本前提。另一方面,物联网技术和应用的成熟使得物联网设备的数量经历着快速的增长。截至2019年,全球物联网设备数量达到110亿。为了实现资源受限物联网设备的互联互通,涌现出多种无线多跳数据传输技术。面对这些普遍存
学位
随着互联网技术的飞速发展和便携式数字媒体设备的普及,图像与视频等多媒体视觉数据正呈现出爆炸式增长。因此,如何快速有效地发现并提取海量视觉数据中的语义目标,并进一步对目标主体进行细粒度的语义内容理解与分析,是人工智能和计算机视觉领域中一项具有重要意义和应用价值的研究课题。  本文主要研究像素级别的语义理解问题,将针对四个不同层次的视觉数据展开研究,分别提出了针对单帧图像的图标签传播显著物体检测方法、
物理模拟是科学研究与工业制造中的一种重要技术。它以物理定律为基础,通过合适的离散化方法在计算机中对真实的物理过程进行仿真重现。在实际应用中,复杂的模拟对象通常会使计算效率十分低下,严重影响了模拟算法的实用性。  在经典的有限元方法中,计算效率会受到多种因素的制约,例如网格的采样密度、单元的质量和本构方程的函数形式等。从数值指标上看,这些因素分别影响着系统的规模、频谱条件和非线性程度,而这些方面则直
学位