论文部分内容阅读
自然语言处理和计算机视觉是人工智能范畴的重要领域,图像描述是两个领域交叉的关键任务之一,是当前最火热的研究之一,具有重要的实用价值。英文图像描述的研究已经比较深入,并有丰富的数据集。然而面向中文图像描述问题的研究还很少,数据集也很缺乏,并且数据集的构建费时费力。本文不使用人工标注的中文数据,利用丰富的英文信息和迁移学习,解决中文图像描述问题。一,基于图文特征融合的中文图像描述模型。丰富的英文数据中包含大量的信息,并且通过翻译可以建立起英文和中文的联系,从而建立图像-英文-中文三者间的关系。本文创新性地提出基于特征融合的中文图像描述模型来解决中文图像描述问题,该模型可以有效地利用图像-英文-中文三者间的关系,提取图像和对应英文描述的特征并将其用不同的方式融合起来,在该融合特征的基础上生成图像的中文描述。其中,图像特征和英文描述特征的融合方式主要有拼接和加权两种方式。实验表明,比起不加入英文描述特征的中文图像描述,拼接融合的中文图像描述模型BLEU-1、BLEU-2、BLEU-3和BLEU-4分别提升了11.4%、8.5%、5.4%和1.5%;加权融合的中文图像描述模型分别提升了7.9%、5.1%、2.6%和0.3%。同时,将中文描述特征和图像特征融合来生成英文的图像描述模型,将英文描述特征和图像特征融合来生成日文的图像描述模型,由此证明该图文特征融合的图像描述模型的扩展性,并在此基础上探究不同语言间的关系。二,基于迁移学习的中文图像描述模型。由于以不同语言为母语的人对于同样的图像关注点是相似的,产生的描述也是相似的,也即是不同语言的人对于图像的理解是相似的。因此可以利用英文关于图像的迁移学习来辅助中文图像描述任务。有时图像-英文-中文三者之间的对应关系获取比较不易,并且可能图像-英文对数据量与图像-中文对数据量不等,因此可以分开利用图像-英文和图像-中文间的关系。本文提出基于迁移学习的中文图像描述模型,该模型有两个训练阶段,用英文数据先训练图像处理模块并保存,再用中文数据训练中文图像描述的整个模型。实验表明,比起不加入英文描述特征的中文图像描述,基于迁移学习的中文图像描述模型BLEU-1、BLEU-2、BLEU-3和BLEU-4分别提升了4.6%、2.9%、1.3%和0.3%。同时用中文的迁移学习来处理英文图像描述和日文的迁移学习来处理中文图像描述,证明基于迁移学习的图像描述模型的扩展性。