论文部分内容阅读
随着信息技术的快速发展,人们对信息的获取和处理逐渐从单一模态转换成多种模态。近年来,人工智能在传统的计算机视觉和自然语言处理等单模态任务上取得了很多激动人心的进展,但是目前的机器智能离通用人工智能仍有很长的路要走。为了理解多模态相互交融的真实环境,人工智能需要同时处理声音、文字和图像等多模态数据,实现多种模态信息的融合和互补。然而,数据的多模态性使得数据表征、信息检索、知识发现和语义推理等应用面临巨大挑战。
多模态学习目的在于发现不同模态之间的对应关系,理解、学习和推理多模态信息,使得人工智能可以从多角度深入理解真实世界。本文聚焦于面向混合模态数据的图像合成和可视表达关键技术,基于低层模态信息驱动理解不同模态数据的结构特性,结合高层语义信息提取内容和推理多模态数据关联,根据语义相似关系映射生成的高质量图像,用于辅助人脑智能进行艺术创作、数据可视化以及提升机器智能认知真实世界的能力。根据模态的类型,本学位论文从三个方面研究基于语义特征的图像合成和可视表达技术。(1)近模态变换:源模态和目标模态在数据结构上比较近似,但映射关系复杂;(2)跨模态生成:源模态和目标模态的数据结构有巨大差异,需要完成跨模态传译;(3)单模态表达:缺少目标模态真实数据,需要人工设计高效的无监督算法进行可视化编码。
本学位论文以基于语义特征的图像合成和可视表达成为目标,围绕多模态学习从不同模态转换到图像模态的语义特征一致性约束展开研究。本文的主要研究方向和贡献概括如下:
基于近模态变换的低光照图像增强方法低光照图像增强的目标是提升图像亮度并且显示较暗区域的隐藏内容。由于复杂的映射鸿沟,图像增强往往是一个不适定问题,解的唯一性和稳定性不能够满足。我们通过增加输入信息约束解空间范围,采用多重曝光融合的方式融合不同照明条件下曝光良好的区域来构建准确的初始图像,并且引入边缘增强模块借助边缘信息来完善初始图像。
基于跨模态生成的跨模态文本生成图像方法自然语言描述生成真实图像的核心挑战在于克服模态异构导致的语义鸿沟问题,从而捕获文本和图像从底层特征到高层语义的多模态表示,灵活地构建视觉内容和文本之间的跨模态关联。我们基于动态记忆网络对图片特征和词向量进行跨模态注意力优化,根据初始图像内容选取并且优化重要的词层次信息,提升自然语言描述到真实图像传译的真实性和准确性。
基于单模态表达的高效图布局方法图数据可视化的任务是在保持图空间中两个节点间的相似度的同时,将结构化的图数据转换为节点链接图。本文采用稀疏距离矩阵、负采样算法和层次布局等三种方法把图布局算法的时间和空间复杂度降低到线性复杂度,从而支持在单机上快速布局具有数百万个节点的大规模图。
基于单模态表达的交通网络可视化方法本项目设计了无监督的城市交通网络嵌入方法,根据交通网络和人群移动行为的相互影响编码城市交通网络节点的语义属性,构建交通网络的向量化表达。我们在保持态势感知的同时将城市地点投影到二维散点图,让领域专家从人群移动性的角度了解城市交通网络的语义相关性。我们设计并实现了一个支持探索和分析城市地点语义关系的可视分析系统。
多模态学习目的在于发现不同模态之间的对应关系,理解、学习和推理多模态信息,使得人工智能可以从多角度深入理解真实世界。本文聚焦于面向混合模态数据的图像合成和可视表达关键技术,基于低层模态信息驱动理解不同模态数据的结构特性,结合高层语义信息提取内容和推理多模态数据关联,根据语义相似关系映射生成的高质量图像,用于辅助人脑智能进行艺术创作、数据可视化以及提升机器智能认知真实世界的能力。根据模态的类型,本学位论文从三个方面研究基于语义特征的图像合成和可视表达技术。(1)近模态变换:源模态和目标模态在数据结构上比较近似,但映射关系复杂;(2)跨模态生成:源模态和目标模态的数据结构有巨大差异,需要完成跨模态传译;(3)单模态表达:缺少目标模态真实数据,需要人工设计高效的无监督算法进行可视化编码。
本学位论文以基于语义特征的图像合成和可视表达成为目标,围绕多模态学习从不同模态转换到图像模态的语义特征一致性约束展开研究。本文的主要研究方向和贡献概括如下:
基于近模态变换的低光照图像增强方法低光照图像增强的目标是提升图像亮度并且显示较暗区域的隐藏内容。由于复杂的映射鸿沟,图像增强往往是一个不适定问题,解的唯一性和稳定性不能够满足。我们通过增加输入信息约束解空间范围,采用多重曝光融合的方式融合不同照明条件下曝光良好的区域来构建准确的初始图像,并且引入边缘增强模块借助边缘信息来完善初始图像。
基于跨模态生成的跨模态文本生成图像方法自然语言描述生成真实图像的核心挑战在于克服模态异构导致的语义鸿沟问题,从而捕获文本和图像从底层特征到高层语义的多模态表示,灵活地构建视觉内容和文本之间的跨模态关联。我们基于动态记忆网络对图片特征和词向量进行跨模态注意力优化,根据初始图像内容选取并且优化重要的词层次信息,提升自然语言描述到真实图像传译的真实性和准确性。
基于单模态表达的高效图布局方法图数据可视化的任务是在保持图空间中两个节点间的相似度的同时,将结构化的图数据转换为节点链接图。本文采用稀疏距离矩阵、负采样算法和层次布局等三种方法把图布局算法的时间和空间复杂度降低到线性复杂度,从而支持在单机上快速布局具有数百万个节点的大规模图。
基于单模态表达的交通网络可视化方法本项目设计了无监督的城市交通网络嵌入方法,根据交通网络和人群移动行为的相互影响编码城市交通网络节点的语义属性,构建交通网络的向量化表达。我们在保持态势感知的同时将城市地点投影到二维散点图,让领域专家从人群移动性的角度了解城市交通网络的语义相关性。我们设计并实现了一个支持探索和分析城市地点语义关系的可视分析系统。