论文部分内容阅读
中国古诗词以其精炼的语言、丰富的想象、真挚的情感传唱千古而不衰,它不仅是诗人对生活的记录、情感的抒发,还包括了对世间万物以及人生命运的思考与把握,具有深刻的哲学内容。近几年,随着互联网技术的快速发展,人工智能再次以全新的姿态登上历史舞台。其中,自然语言处理领域中的诗歌生成技术是一项极具挑战性的工作。目前国内外虽然利用神经网络技术对诗歌生成问题进行了相关的研究,但生成的诗歌往往因模型过于自由,存在主题偏离、表意不明的问题。另外,如何让机器生成的诗歌更接近人类创作以及如何满足诗歌平仄格律要求是一个研究难点。本文在序列生成对抗网络模型的基础上,做了以下改进:(1)将基于注意力机制的编码解码模型来代替原模型中生成器部分采用的长短期记忆网络模型。鉴于本文的输入数据是几个独立的关键字,而不是具有时序信息的完整序列,而采用单一的长短期记忆网络模型往往出现与关键字信息关联不强的诗歌文本,因此本文提出一种基于注意力机制的编解码模型。首先基于分解机的语义特征编码模型对关键字进行特征提取,然后使用长短期记忆网络作为模型的解码器。在编码器和解码器之间还有一个注意力模块,保留关键信息,剔除不重要的信息。(2)借鉴了条件生成对抗网络的思想,额外增加诗歌的平仄信息到判别器模型的输入层中,使得判别器在判断文本是来自于真实样本还是生成样本的同时,还要关注文本是否满足诗歌的平仄要求。(3)针对原模型中采用蒙特卡洛树搜索方法来补全文本,其大量采样运算导致模型收敛慢的问题,本文提出选用集束搜索来代替原搜索方法,并在原评分函数的基础上添加了一项惩罚因子,起着对降低文本质量的单词进行惩罚的作用。经实验验证,改进后的序列生成对抗网络较原模型的BLEU得分上得到了提升,由0.739提升至0.803,证实了改进后模型的有效性。