论文部分内容阅读
随着二胎政策的实施,我国新生儿的数量正在逐年增加,对于幼儿的教育也日益重视。而现在,我国市场上的童话故事过于老套,且缺乏定制性,数量也并不足以满足现在日益增长的需求。另一方面,随着深度学习领域的高速发展,其所包含的很多领域都有巨大突破,如计算机视觉、自然语言处理与实时决策等;但是随着模型的不断发展,如何将各个纵向发展的领域结合,让模型真正解决现实问题、体现价值也是一个十分重要的问题。所以本文试图结合最新深度学习的模型从而实现从卡通图片生成童话故事,为学龄前儿童提供更丰富的语料。本文构建了一个端到端的、可以从卡通图片生成童话故事的系统,结合图像描述模型与语言模型,并利用集束搜索算法改进。系统主要分为三个模块,分别是图像描述模块、连接模块以及文本生成模块。在图像生成模块,利用全新的编码器-解码器架构,实现从一张图片生成关于该图片的短文本描述;在连接模块,主要利用集束搜索算法对模块一输出部分以及模块三的输入端进行改进,将更多的图像信息融入文本中;在文本生成模块,改进了最新的语言模型GPT-2,用于生成长文本(童话故事)。在模型评估方面,首先对图像描述模块进行了机器翻译指标BLEU的评估,本文架构在同等训练时长的情况下优于传统架构的结果;其次对长文本进行评估,说明生成的文本上佳;最后提出了一种新的评估此类问题的指标,综合了文本相关性、长距离依赖度以及语句通顺程度因素,又通过实验证明这种指标可以有效的对从图像生成长文本问题进行评估。本文的创新点在于构建了一种实用、有现实价值的深度学习系统;在系统内部提出利用Dense Net卷积神经网络与改进的字符级循环神经网络作为编码器与解码器处理图像描述任务;利用集束搜索算法有机融合图像描述模型与语言模型;并且构建了一个指标有效评估此类问题,填补了长文本图像描述问题评估的空缺。