基于深度学习的视觉问答算法研究

来源 :对外经济贸易大学 | 被引量 : 0次 | 上传用户:shiguzxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和普及,视觉问答系统越来越多的进入人们的生产生活。现有的VQA算法虽各有优势,但仍存在忽略局部特征的提取、忽略局部特征间的位置关系和逻辑关系、不擅长处理推理性问题和常识性问题等问题尚未解决。
  本文以现有VQA研究存在的问题为导向,使用一种交替共同关注的注意力机制,进行视觉问答系统的搭建。首先,我们进行问题特征的提取。在对LSTM和BIGRU模型进行对比后,我们发现BIGRU模型可以对文本进行双向特征关注,并且训练速度快,模型简单,效果与LSTM相近。因此,在进行综合考量后,我们选择使用BIGRU模型对问题特征进行提取。
  其次,我们进行图像特征提取。对于图像特征提取,在对VGG和Resnet进行对比后,我们选择了Resnet。因为该模型在性能和效果上都优于VGG模型。
  最后,我们使用交替共同关注注意力机制。该机制首先对问题特征进行注意力关注得到基于关注的问题向量;然后,我们使用关注得到的问题特征向量作为引导去关注图像特征;最后,我们使用基于问题关注得到的图像特征向量作为引导再次对问题特征进行关注,交替关注在每一层中进行。最后,我们将经过交替共同关注后得到问题向量送入激活函数中,即可得到比较准确的答案。
其他文献
自迈克尔·波特教授在1985年提出“价值链”这一概念以来,全球化的迅猛发展逐步推进了价值链体系在国际间的分工与协作。全球价值链的诞生与延伸伴随着世界经济深入发展的全过程。价值链分工模式打造了全新的世界贸易格局,自然也对传统意义上的贸易政策和规则提出新的要求。在新的背景下,为了应对更高水平贸易规则的挑战,各经济体间积极签署自由贸易协定(FTA),寻求融入全球价值链的新途径。自由贸易协定在数量上不断增
近年来,全球部分海洋被过度开发,渔业资源面临衰竭,而WTO各成员的渔业补贴无疑加速了渔业资源的恶化过程。有鉴于此,2001年多哈部长会议开启了渔业补贴新规则谈判,会上要求各成员澄清和改善渔业补贴规则,并考虑这一议题对发展中国家的影响,这成为持续近20年的渔业补贴谈判的开端。之后,WTO成员就渔业补贴问题进行了多次谈判,但由于存在核心利益上的不一致,至今未达成有效的谈判协议文本。直到2015年,纽约
学位
数字贸易近年来发展迅速,已经成为国际贸易领域中一种非常重要的贸易形式。基于2000-2014年世界投入产出数据库(WIOD)、WTO的RTA数据库和CEPII数据库等数据,在测算数字贸易和规制融合指标的基础上,本文实证考察了规制融合对数字贸易的影响。结果表明,规制融合会促进数字贸易的开展。规制融合降低了数字贸易的交易成本并提高了数字内容行业的可贸易性。进一步发现,规制融合对不同数字贸易行业产生的影
学位
作为中国“互联网+医疗”主要组成部分,在线医疗社区平台向人们提供了一个能够搜寻健康信息、交流疾病相关治疗经验和寻求情感支持的重要在线场所,其中在线医疗健康咨询服务是最为主要的服务方式之一。但是作为考核和保证服务质量的关键环节,服务质量评价目前存在评价率低、恶意差评等问题,这使得医生线上名誉和利益难以得到保障,患者也无法寻找到合适的医生进行咨询服务,严重阻碍了医患线上信任、医疗信息交互和在线医疗健康
学位
由于数据量的快速增长以及人工标记样本成本增加,大大限制了监督学习的应用。在客户流失预测领域,目前研究者多采用监督学习方法进行客户流失预测,需要大量的带标签样本进行训练,但标记样本的过程耗时且耗力影响了模型在实际场景中的应用。本文利用标签比例学习方法探索解决移动客户流失问题,通过样本分包的标签比例信息来训练模型,无需使用单个样本的标签信息,同时解决该方法在移动客户流失预测过程中的两个问题。一方面,实
学位
家庭健康服务路径规划与预约调度问题(HHCRSP)是近年来备受关注的一个领域,简单来说HHCRSP是指设计一套供护理服务者在客户家中执行健康护理服务的路径规划和预约调度方案,总体目标是降低总成本并确保服务质量。  目前不同学者针对HHCRSP问题提出了多种数学模型和求解方法,前人研究基本采用概率论或者模糊理论来处理,而HHCRSP问题中存在很多不确定因素,如变动的服务时间窗(在服务过程中存在着延长
数据量和数据维度的增加产生了许多大规模的数据集,数据噪声的存在,给处理这些数据的算法带来了精度和效率上的挑战。另一方面,数据中大量特征往往是相互关联的,非负矩阵分解(Non-negative Matrix Factorization,NMF)为处理大规模数据提供了一种新的途径,可以对原始数据进行特征提取,提高学习算法的准确率。值得注意的是,样本间几何空间结构和部分已知标签信息的加入会给模型带来强化
学位
随着互联网技术的不断革新,一种新型的用户交互功能“弹幕”异军突起,成为了当下主流的用户表达观点的方式。弹幕通常表现为用户对某一特定时间点处视频内容的简短评价,相较于在线评论来说,弹幕的体量非常大且更直观地表达了用户的观感。如何通过弹幕获取用户兴趣也引起了产业界和学术界的关注。  本文针对传统文化题材纪录片这一领域,从弹幕视角来探究用户关注的纪录片要素,为纪录片观众的兴趣建模提供基础。本文首先根据弹
学位
知识产权的保护影响科研人员的创造力和企业的研发动力,在新时代经济背景之下,知识产权的保护是创新的重要驱动力和法律保障。专利侵权预警是知识产权保护的重要手段,也是科技型企业赖以生存的重要依靠,在实际生产经营活动中保护科技型企业直接和间接的经济利益和合法收益。近年来,随着专利申请量的爆发式增长,在专利保护机制尚未完善的背景下,产生了大量的关于科技型企业的专利诉讼案件。大量的专利侵权诉讼案件数据为挖掘、
学位
随着数字化医院的建设,包含着越来越多的与患者健康状况相关的医疗知识的电子病历成为了“医疗大数据”的主要来源,通过自然语言处理技术提取和挖掘电子病历中的命名实体及有效信息,能够为医疗产业发展人工智能奠定坚实的基础。而中文电子病历领域仍然缺乏大规模的标注数据及标准的语料库,且标注语料需要专业的医护人员进行,既耗费人力,成本也相对较高,所以本文基于小规模的肺部电子病历的标注语料,引入多特征融合的条件随机
学位