论文部分内容阅读
在信息时代,用户产生的海量图片、文本信息,给我们的管理和分析工作提出了巨大的挑战。大规模图片集的交互式可视分析工具,可以帮助我们挖掘图片数据中的潜在价值,有着重大的意义。大多数先前的研究工作主要基于图片的底层视觉特征,例如几何形状和颜色,来产生可视化布局,从而忽略了图片中的语义信息。本文提出了一个新的可视分析模型,能够在清晰地展现图片集语义信息的同时,保持图片与关键词内在以及相互之间的相似性。这个模型主要包含两个部分:一个语义抽取器和一个布局生成器。语义抽取器使用了一个基于深度神经网络的图片文本描述模型,可以得到图片的文本描述,并转化为关键词的集合。布局生成器使用了一个基于词与词、词与图片、图片与图片之间的相互关系的协同镶嵌模型,将词和图片共同投影到一个二维平面中。用户可以将自身的知识整合进协同投影的过程中。此外,本文在一个原型系统中实现了上述可视分析模型,通过案例和用户研究证明了该方法的有效性,并且对图片可视化的工作提出了指导意见。