面向中文图像描述的关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:OsWorkFlow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理和计算机视觉是人工智能范畴的重要领域,图像描述是两个领域交叉的关键任务之一,是当前最火热的研究之一,具有重要的实用价值。英文图像描述的研究已经比较深入,并有丰富的数据集。然而面向中文图像描述问题的研究还很少,数据集也很缺乏,并且数据集的构建费时费力。本文不使用人工标注的中文数据,利用丰富的英文信息和迁移学习,解决中文图像描述问题。一,基于图文特征融合的中文图像描述模型。丰富的英文数据中包含大量的信息,并且通过翻译可以建立起英文和中文的联系,从而建立图像-英文-中文三者间的关系。本文创新性地提出基于特征融合的中文图像描述模型来解决中文图像描述问题,该模型可以有效地利用图像-英文-中文三者间的关系,提取图像和对应英文描述的特征并将其用不同的方式融合起来,在该融合特征的基础上生成图像的中文描述。其中,图像特征和英文描述特征的融合方式主要有拼接和加权两种方式。实验表明,比起不加入英文描述特征的中文图像描述,拼接融合的中文图像描述模型BLEU-1、BLEU-2、BLEU-3和BLEU-4分别提升了11.4%、8.5%、5.4%和1.5%;加权融合的中文图像描述模型分别提升了7.9%、5.1%、2.6%和0.3%。同时,将中文描述特征和图像特征融合来生成英文的图像描述模型,将英文描述特征和图像特征融合来生成日文的图像描述模型,由此证明该图文特征融合的图像描述模型的扩展性,并在此基础上探究不同语言间的关系。二,基于迁移学习的中文图像描述模型。由于以不同语言为母语的人对于同样的图像关注点是相似的,产生的描述也是相似的,也即是不同语言的人对于图像的理解是相似的。因此可以利用英文关于图像的迁移学习来辅助中文图像描述任务。有时图像-英文-中文三者之间的对应关系获取比较不易,并且可能图像-英文对数据量与图像-中文对数据量不等,因此可以分开利用图像-英文和图像-中文间的关系。本文提出基于迁移学习的中文图像描述模型,该模型有两个训练阶段,用英文数据先训练图像处理模块并保存,再用中文数据训练中文图像描述的整个模型。实验表明,比起不加入英文描述特征的中文图像描述,基于迁移学习的中文图像描述模型BLEU-1、BLEU-2、BLEU-3和BLEU-4分别提升了4.6%、2.9%、1.3%和0.3%。同时用中文的迁移学习来处理英文图像描述和日文的迁移学习来处理中文图像描述,证明基于迁移学习的图像描述模型的扩展性。
其他文献
<正>《医学综述》在中国科学技术信息研究所的2017年版《中国科技期刊引证报告》(核心版)同类学科42种期刊中的总被引频次(5132)排名第4位、影响因子(0.487)排名第20位、综合
心理测验工作者的道德准则心理测验在鉴别智力、因材施教、人才选择、就业指导、临床诊断等方面具有作为咨询鉴定和预测工具的效能。凡在诊断、鉴定、咨询及人员选择等工作中
<正>"一天一个价"的猪肉涨到了什么程度?与其他大宗商品的对比来看,可以获得一些直观印象,按照40元/公斤的最新价格计算,一斤猪肉能买六斤半豆油或者21斤玉米,或4斤苹果。在
目的:探讨温针灸与针刺治疗老年性膝骨关节病的临床疗效。方法:选取我院80例老年性膝骨关节病患者,将其随机分为观察组和对照组,每组40例,观察组使用温针灸进行治疗,对照组采
目的:研究中医推拿整复治疗方法对于膝关节骨性关节炎患者的实际治疗效果。方法:对照组(46例患者使用传统西医方法治疗),实验组(46例患者在对照组基础上加用中医推拿整复治疗
文章运用计量学方法分析影响农业总产值的因素,即通过对农产品的播种面积、受灾面积;耕地的灌溉面积、化肥施用量和机械用量的实证分析,运用经济学原理,引入计量经济学模型,
文章从认识房管企业管理者与员工之间存在沟通不畅问题的严重性入手,就如何进行科学有效的沟通展开论述。
通过对香花岭矽卡岩型锡矿床的地质特征及控矿因素的研究,分析认为,地层、构造、岩浆岩对矿床的形成起了不同的控制作用,成矿受含锡矿源层控制明显,具层控—矽卡岩型锡矿床特
锡铁山矿床地表及上部中段的近矿围岩中发育大量的石膏和含锌菱铁矿,长期以来主要作为喷流沉积或后期改造的产物。同时,地表的褶皱构造在深部却不发育,其原因一直存在争议。
尕龙格玛铜锌多金属矿区岩浆活动强烈,火山岩分布广泛,其展布受区域构造的控制作用明显。通过野外地质调查及对尕龙格玛铜锌多金属矿区火山岩系的岩石矿物组合和结构构造、岩