细粒度图像描述方法研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户：gundamchen

【摘要】

：

【作者】

：

云静

【机构】

：

内蒙古大学

【出处】

：

内蒙古大学

【发表日期】

：

2021年01期

【关键词】

：

细粒度图像描述

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像描述主要解决的问题是如何使用自然语言自动描述图像的内容，该研究主要涉及了计算机视觉和自然语言处理两个研究领域，是人工智能中一项重要的研究工作。随着数字图像的广泛使用和传播，其信息价值飞速增长，图像描述作为图像与自然语言的桥梁，具有广阔的应用前景。图像描述可广泛应用于图像检索、语义视觉搜索、多模态检索、对话机器人的视觉智能、视障辅助、军情侦察、智能监控等。
　　本论文研究细粒度图像描述方法，使计算机自动生成的图像描述除了能够给出图像中显著性物体的一般性描述外，还可以更加精细地描述物体的属性，以及物体之间的关系、物体的名称。这使得图像描述任务复杂且具有挑战性。主要体现在：（1）现有方法通常对一幅图像只生成一个或几个简短的语句，并且一般仅侧重于表达图像中的显著性物体，忽略了对其属性语义的准确描述，且同一属性语义可以描述不同类别的物体，也不容易匹配对应的物体；（2）只研究利用图像中物体的视觉关系作为物体之间的相互关联或交互关系，而图像中视觉关系数目巨大，标注数据量相对较小，当遇到未见过的视觉场景时，生成的描述结果仅仅是一些图像中的显著性物体；（3）现有方法只是对图像中物体的一般性描述，缺乏真实世界中的人名、地名等具体信息。
　　如何得到细粒度图像描述，如何正确地匹配物体的属性和关系，如何获取物体的名称，这些都是非常具有挑战性的问题。为解决上述问题，本文从细粒度语义学习的角度出发，着手解决其中的三个关键问题：（1）准确地匹配物体和物体的属性；（2）挖掘物体、物体属性以及物体间的关联关系；（3）为图像中的物体引入命名实体。本文主要研究工作归纳如下：
　　（1）提出了基于门控的物体-属性匹配网络的图像描述方法。该方法利用基于视觉注意力机制的长短期记忆人工神经网络(Long Short-Term Memory,LSTM)定位图像中的物体，利用基于语义注意力机制的LSTM得到图像中的属性标签；在属性语义的类别不可知的情况下，利用门控单元联合学习，将物体与属性语义进行匹配。基于门控的物体-属性匹配网络的图像描述模型，在描述物体时给出更多的属性细节，使生成的图像描述更精细。
　　（2）提出了场景图对齐的图像描述方法。研究图像与文本在物体、属性及关系上的细粒度对应，将图像和句子高度抽象，以物体、属性及关系为结点生成场景图，利用生成对抗网络将它们相互重构，以实现图像场景图和句子场景图的对齐。该方法由图像场景图生成器、句子场景图生成器、特征映射器和句子生成器组成。所提出的方法能够进一步给出物体的属性及关系，从而生成包含更详细语义信息的描述。实验评估验证了所提出方法的有效性。
　　（3）提出了上下文驱动的命名实体感知图像描述方法。该方法为了生成包含有人名、地名等具体信息的描述，研究如何将互联网新闻作为背景知识融入到图像描述中，实现上下文驱动的命名实体感知图像描述方法。该方法在图像内容的指导下从新闻中提取命名实体，并利用知识图谱、实体链接算法、量化集验证算法，扩展并分析命名实体的语义相关性，以全局视角发现实体之间的关系，从而得到信息更为具体的图像描述。

其他文献

基于深度学习的中文文本信息抽取研究

信息抽取旨在从文本中提取出特定的事实信息,用于构造结构化数据,作为自然语言处理主要的研究方向之一,包括命名实体识别、关系抽取和事件抽取三个子任务。目前,基于深度学习的信息抽取已经取得了一些研究成果。但是,现有的中文信息抽取方法大都基于词向量表示进行模型的改进,而忽略了文本表示的重要性。同时,以词向量作输入的模型高度依赖于分词工具的质量且中文还存在多义性的问题。为此,本文从语言学角度分析了中文文本的

学位

基于边缘计算的车联网任务卸载及缓存机制研究

5G技术的发展促进了智能交通的快速建设。自动驾驶的出现更是需要庞大且快速的数据交换,这对车联网提出了挑战。同时电动汽车的普及也为车联网提出了新的能源消耗的问题。移动边缘计算技术是车联网面对挑战的关键。本文主要研究了基于边缘计算技术的车联网的网络架构,任务处理时延以及能源消耗的问题,目的旨在于车辆用户获得更好的体验质量,更低的等待时间以及更低的能源消耗。本文构建了城市环境下具有云计算中心的支持边缘计

学位

基于图像处理的纽扣检测系统研究

随着现在社会计算机技术的迅速发展,图像处理技术在纺织业、仪器仪表制造业等工业制造领域的应用越来越广泛。针对多数纽扣生产厂家采用人工方式进行纽扣质量检测和计数,导致检测效率较低的问题,设计了基于图像处理的纽扣瑕疵检测与计数系统。主要分为纽扣检测与定位、带孔塑料纽扣的瑕疵检测、带文字图案金属纽扣的瑕疵检测和纽扣计数这四部分。纽扣检测与定位部分主要目的是实现ROI区域的定位与提取。设计了两种纽扣检测方法

学位

MEMS电磁扫描微镜的无模型控制方法研究

MEMS扫描微镜是伴随着微机电系统技术的快速发展而逐渐得到广泛关注的一种微型光学器件,由于其具有体积小、成本低、功耗低、灵敏度高、可批量生产等许多优良特性,因此在高清投影显示、现代光学通讯、以及下一代激光雷达等诸多领域有着十分广阔的应用前景。近年来,国内外大量的研究员对MEMS扫描微镜展开深入的研究,通过分析微镜所固有的特性,设计该系统的控制器来提高微镜的性能,MEMS扫描微镜的控制已经逐渐成为一

学位

一种基于随机与自适应策略的多突变点检测方法

学位

复数域随机系统的递推滤波方法研究

学位

基于深度学习网络的阴影检测与去除算法设计

阴影在自然界中无所不在,它由于在光传播途径中存在遮挡物而产生。阴影的出现有利有弊,弊端在于它会干扰许多现有的图像、视频的处理与分析任务,而有利点在于阴影其实隐含了光源和场景中的物体信息,有利于场景中的目标理解。因此研究阴影的检测与去除方法兼具理论与现实意义,但它历来也被认为是机器视觉中一个极富挑战性的任务。阴影的检测算法按其特征的设计思路分为传统的基于人为构建特征的检测与利用深度学习网络进行检测这

学位

面向时序数据的卷积神经网络聚类算法研究

学位

工业烟丝干燥过程建模与先进控制策略研究

学位

基于多维尺度分析和不变矩的视频哈希算法

视频哈希作为数字媒体内容安全领域的一个重要研究课题，近年来受到研究人员的广泛关注，现已成功应用于视频拷贝检测、视频认证、视频检索和视频篡改检测等方面。视频哈希算法可以从一个输入视频中提取出一串基于内容的、简短的数字或比特序列，该序列称为输入视频的视频哈希。在实际应用中，可以用视频哈希来代表视频本身，有效地降低视频的存储代价和视频相似计算的复杂度。通常，视频哈希算法应该满足两个基本属性，即鲁棒性和唯

学位

视频哈希

细粒度图像描述方法研究

其他学术论文