论文部分内容阅读
随着互联网的迅速发展以及科学技术的巨大进步,线上科研论文数量呈指数型增长,科研人员陷入到信息的海洋中。自动摘要技术可以适配论文场景,对同一领域的多篇论文给出总结信息,为科研人员在海量的论文信息中快速了解某领域的现状提供了有效的工具。
对论文应用自动摘要技术时会面临如下挑战:首先,多篇论文文本的总和长度较长,容易导致算法无法收敛,重要信息丢失等现象;其次,科研论文包含多个语义层面,如研究背景、创新发现、实验验证等,需要综合多篇论文后仍然覆盖多个语义层面的信息;再次,不能只考虑语义共性来生成摘要,还要考虑语义差异,而语义差异往往容易被忽视;最后,目前缺乏对多篇论文简短的总结性文本,即标记样本。
在以上问题和挑战的驱动下,本文研究了面向科研主题的多文本摘要生成问题,在给定某一特定研究领域下的多篇高度相关的论文时,输出一段用来描述这些论文的简短摘要。
在本文中,为了平衡多论文之间的语义相似性和在不同层面的差异性,同时减少输入文本的总和长度,通过将文本中的句子做功能标注,以将样本划分到不同的语义层面,并分别按照语义层面输入到模型中去,使后续模型能够生成包含从不同的层面信息的摘要;在缺少标记样本的情况下,为了提升多文本摘要的质量,同时便于评估,本文在文本句子功能标注的基础上,对多篇文本生成了伪摘要,以辅助训练和评估;为了生成既全面又不冗余的摘要,本文使用了基于注意力机制和指针-生成器网络的分层编码器-解码器架构,在生成摘要的过程中兼顾了高信息量和低冗余。
针对本文提出的方法,在计算机科学领域的论文数据集上进行了对比实验。本文通过改变模型的实现过程,得到了多个变种,以验证模型的合理性和各个组件的优点和必要性;通过使用多种基于语义理解的评估指标,较为全面地评估了本文方法和对比方法,充分验证了本文方法的有效性;最后本文还对实验进行了超参数分析、理论分析和可视化。
对论文应用自动摘要技术时会面临如下挑战:首先,多篇论文文本的总和长度较长,容易导致算法无法收敛,重要信息丢失等现象;其次,科研论文包含多个语义层面,如研究背景、创新发现、实验验证等,需要综合多篇论文后仍然覆盖多个语义层面的信息;再次,不能只考虑语义共性来生成摘要,还要考虑语义差异,而语义差异往往容易被忽视;最后,目前缺乏对多篇论文简短的总结性文本,即标记样本。
在以上问题和挑战的驱动下,本文研究了面向科研主题的多文本摘要生成问题,在给定某一特定研究领域下的多篇高度相关的论文时,输出一段用来描述这些论文的简短摘要。
在本文中,为了平衡多论文之间的语义相似性和在不同层面的差异性,同时减少输入文本的总和长度,通过将文本中的句子做功能标注,以将样本划分到不同的语义层面,并分别按照语义层面输入到模型中去,使后续模型能够生成包含从不同的层面信息的摘要;在缺少标记样本的情况下,为了提升多文本摘要的质量,同时便于评估,本文在文本句子功能标注的基础上,对多篇文本生成了伪摘要,以辅助训练和评估;为了生成既全面又不冗余的摘要,本文使用了基于注意力机制和指针-生成器网络的分层编码器-解码器架构,在生成摘要的过程中兼顾了高信息量和低冗余。
针对本文提出的方法,在计算机科学领域的论文数据集上进行了对比实验。本文通过改变模型的实现过程,得到了多个变种,以验证模型的合理性和各个组件的优点和必要性;通过使用多种基于语义理解的评估指标,较为全面地评估了本文方法和对比方法,充分验证了本文方法的有效性;最后本文还对实验进行了超参数分析、理论分析和可视化。