科研主题约束下的多文本摘要生成方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:jiaoyang_204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展以及科学技术的巨大进步,线上科研论文数量呈指数型增长,科研人员陷入到信息的海洋中。自动摘要技术可以适配论文场景,对同一领域的多篇论文给出总结信息,为科研人员在海量的论文信息中快速了解某领域的现状提供了有效的工具。
  对论文应用自动摘要技术时会面临如下挑战:首先,多篇论文文本的总和长度较长,容易导致算法无法收敛,重要信息丢失等现象;其次,科研论文包含多个语义层面,如研究背景、创新发现、实验验证等,需要综合多篇论文后仍然覆盖多个语义层面的信息;再次,不能只考虑语义共性来生成摘要,还要考虑语义差异,而语义差异往往容易被忽视;最后,目前缺乏对多篇论文简短的总结性文本,即标记样本。
  在以上问题和挑战的驱动下,本文研究了面向科研主题的多文本摘要生成问题,在给定某一特定研究领域下的多篇高度相关的论文时,输出一段用来描述这些论文的简短摘要。
  在本文中,为了平衡多论文之间的语义相似性和在不同层面的差异性,同时减少输入文本的总和长度,通过将文本中的句子做功能标注,以将样本划分到不同的语义层面,并分别按照语义层面输入到模型中去,使后续模型能够生成包含从不同的层面信息的摘要;在缺少标记样本的情况下,为了提升多文本摘要的质量,同时便于评估,本文在文本句子功能标注的基础上,对多篇文本生成了伪摘要,以辅助训练和评估;为了生成既全面又不冗余的摘要,本文使用了基于注意力机制和指针-生成器网络的分层编码器-解码器架构,在生成摘要的过程中兼顾了高信息量和低冗余。
  针对本文提出的方法,在计算机科学领域的论文数据集上进行了对比实验。本文通过改变模型的实现过程,得到了多个变种,以验证模型的合理性和各个组件的优点和必要性;通过使用多种基于语义理解的评估指标,较为全面地评估了本文方法和对比方法,充分验证了本文方法的有效性;最后本文还对实验进行了超参数分析、理论分析和可视化。
  
其他文献
半导体纳米线由于其大的比表面积、丰富的表面态、高的光吸收效率和独特的电子输运特性,被广泛应用于高性能的纳米电子器件、光电探测器件和光伏器件等领域。为了实现性能更加优异的纳米线器件,核壳结构纳米线应运而生,并得到了广泛的研究和关注。核壳结构纳米线既具有纳米线本身的特点,又兼具核壳不同材料的物理化学特性。此外,核壳结构纳米线的外壳不仅可以起到保护纳米线的作用,还可以调节纳米线的光电特性。因此核壳结构纳
随着全国机动车保有量的逐年上涨,人们的出行也越来越离不开汽车,在我们享受车辆给日常生活带来便利的同时,也伴随着危险事故的发生。近几年交通事故发生率逐年攀升,疲劳驾驶已然成为造成交通事故的主要原因之一,因此针对疲劳驾驶展开预警及防护迫在眉睫。  国内市场针对疲劳驾驶检测的设备大多较为繁琐且装配复杂,且无法第一时间获取车内驾驶员相关信息,无法及时降低事故风险。  针对上述状况,本文讨论了一种嵌入式疲劳
学位
无线通信技术在如今的信息交流中扮演着重要的角色,它的发展与锁相环(Phase-Locked Loops,PLL)息息相关。锁相环技术也因此得到了越来越多的研究。锁相环在无线收发机中为调制或者解调提供本地振荡信号,除此之外它还可以给数字电路系统提供时钟信号。锁相环对整个收发机系统的正常工作至关重要,所以高性能的锁相环要具备低相位噪声、低杂散、低功耗、宽调谐范围和高集成度等优点。  本文设计了一款应用
学位
有机荧光材料具有出色的光电性能和生物相容性等优点,在发光器件、太阳能电池、生物医学成像、传感器等领域有着广泛的应用。此外,有机荧光材料还具备结构可设计、易修饰等特点,可以根据应用的具体需求设计合成出各种结构新颖,性能优异的分子结构。诸多优势使得人们对有机荧光材料的设计合成、理论机理、实际应用的研究越来越丰富。在有机荧光材料性能的评价指标中,发光波长、量子效率、荧光寿命是三个重要的评价参数。近年,一
随着集成电路制造工艺的发展,器件特征尺寸不断减小,非理想效应逐渐凸显,设计难度不断增大。然而,目前市场上缺乏成熟、完备的模拟集成电路自动化设计工具,模拟集成电路的设计主要依靠手工完成,设计效率较低。本文对模拟集成电路的设计与优化方法展开研究,旨在提高模拟集成电路的设计效率,缩短设计周期。  模拟集成电路的设计流程包括拓扑选择、电路参数设计、版图设计、制造和测试等步骤。本文针对前两个步骤展开研究。对
随着科技的发展社会的进步以及人民收入的增加,道路上的车辆也日渐变得越来越多。车辆的增多造成了交通压力日益增大局面。面对日益严重的交通拥堵状况,日常生活中选择乘坐公交车的人日渐增多。当前各大城市基本都建成了公交车实时位置查询系统,帮助乘客掌握公交车的实时位置。进一步掌握公交车内部的拥挤度情况,对乘客的乘车舒适性、疫情大背景下指导乘客合理乘车保障人身健康以及公交车的合理调度都具有重大的意义。本文采用目
学位
随着卫星定位导航技术的快速发展,卫星导航技术已经与5G、惯性导航、视觉定位等导航技术实现了融合,增强功能的导航系统在人们日常生活中发挥着越来越重要的作用。  传统的测距码定位方法定位较快但精度受限。本文重点研究了高精度的卫星定位方法,在实验环境下实现了高精度单点定位(Precise Point Positioning,PPP)模式的解算,经仿真实验验证静态定位精度达到厘米级。本文继而讨论了PPP定
学位
在过去的十几年间科学家们对量子计算机关键技术的研究已经有了突破性的进展,这预示着在不久的将来商业化的量子计算机将被使用到国家发展的各个领域中。另外,早在1994年数学家以及密码学家PeterShor就已经提出了可破解大数因子分解困难问题的量子算法——Shor算法,随后在1997年数学家Grove紧跟着提出了可以快速计算离散对数困难问题的量子搜索算法——Grove算法。所以当实用性的量子计算机一旦问
学位
激光雷达已经在测绘、自动驾驶和遥感等领域得到了广泛应用。在高性能激光雷达系统中,通过引入单光子探测技术,可以降低主动照明的功率,有效降低载荷重量和功耗,增大工作距离。不同的应用场景对于单光子探测器的性能、工作条件、体积功耗等需求差别很大。  为满足无人平台等体积受限系统的集成化单点或多波束激光雷达应用需求,本论文研制了基于InGaAsP/InPSPAD的微型化单光子探测器,并对其性能进行测试和分析
生物识别技术是经过采集人体的某一种或多种生物特征,经过处理后进行匹配识别从而验证个人信息的一种技术。利用外部图像采集或传感器设备提取生物特征信息,将其处理后转为统一的特征模板,并保存到数据库中,使用计算机及相关识别算法完成身份验证过程。与传统的识别技术(钥匙、身份证、密码等)相比,生物识别的安全性更高,保密性更好。另外,使用生物特征做身份识别还具有防伪性能好、便携、不易遗忘或丢失等优点。可用于生物
学位