文本摘要生成技术研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hongniba3493
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会,随着互联网技术的高速发展和信息化时代的到来,全球信息量暴增,人工处理信息的速度远不能满足人们的需求。自动文本摘要技术可以帮助人们快速从文本中精炼出重要信息,从而提高人们信息获取的效率。自动文本摘要技术主要分为抽取式和生成式两大类,两类方法有不同的使用场景。为了满足不同的应用需求,本文对抽取式的TextRank算法和生成式的PreSumm模型进行了研究,并对其中存在的问题提出了改进方法,提升了文本摘要质量。论文主要完成了以下工作:(1)提出了一种基于TextRank改进的算法FB-TextRank。TextRank存在特征考虑不全、相似度计算粗糙的问题,导致了摘要质量不佳。针对特征考虑不全问题,本文提出了句子位置、关键词特征的定义和计算方法,完善了句子特征。针对相似度计算粗糙问题,本文根据不同模型和粒度下的文本表示实验结果选择Bert进行句向量表示,使相似度计算更准确。结合以上两点改进提出了FB-TextRank算法,在CNN/Daily Mail数据集上的实验结果表明FB-TextRank算法相较于其他算法在Rouge指标上有所提升,验证了算法改进的有效性。(2)提出了一种基于PreSumm改进的模型BT-Summ。PreSumm存在语义信息缺失和解码缓慢的问题,导致了摘要质量不佳和计算效率低。针对语义信息缺失的问题,本文提出了文本位置分层编码的定义和编码计算规则,使得可以完整的保留原文语义信息。针对解码缓慢的问题,本文提出了两步剪枝用于改进集束搜索算法,提高了集束搜索在解码过程中的计算速度。结合以上两点改进提出了BT-Summ模型,在CNN/Daily Mail数据集上的实验结果表明BT-Summ模型相较于其他模型在Rouge指标上有所提升,验证了模型改进的有效性。(3)设计并实现了文本摘要系统。根据网络数据智能处理项目和科技数据智能分析项目的具体需求,以本文提出的FB-TextRank算法和BT-Summ模型为基础,完成了对文本摘要系统的需求分析、总体设计、详细设计、系统实现、系统测试以及系统应用。
其他文献
随着经济的发展,物流运输活动在社会经济活动中的作用也日益提升。企业采购,居民家庭的牛奶、报纸运输,邮递服务,城市垃圾的回收等生产、服务活动都将我们的生活和物流运输紧密联系在一起。另一方面,在现实生活中,物流运输活动常常会遇到各种不确定因素,例如天气变化、交通拥堵、不确定的需求和服务时间等等,均给物流运输管理带来了极大的挑战。本文以物流运输中的车辆路径问题为研究背景,考虑带有随机顾客需求的情况,建立
文本验证码出现早,可扩展性强,被广泛使用。然而,随着深度学习技术的发展,文本验证码的安全性受到越来越大的挑战。因此,为增强文本验证码面对深度学习模型时的反识别能力,论文提出两类适用于不同场景的基于深度学习的文本验证码反识别算法,这两类算法能在不影响人眼识别成功率的前提下最大化提升原有文本验证码的反识别能力。第一,研究计算资源受限情况下如何尽可能提升文本验证码反识别能力的问题。深度神经网络对对抗样本
智能交通系统中,道路运动障碍物的检测跟踪一直都是一个重点的研究内容。由于行车过程中车载摄像头运动导致背景运动,使得视频中存在运动的障碍物与背景两个相互独立的运动导致目标检测和后续跟踪困难。对于在汽车辅助驾驶系统中,道路上运动障碍目标的检测时由于车载摄像头运动引起的背景复杂以及对检测跟踪结果的实时性准确性等技术要求,提出一种有效的解决方案。该论文主要工作有:(1)目标检测问题上,将视频图片帧进行感兴
胚胎干细胞是从胚胎发育早期的囊胚的内细胞团内分离出来的一类细胞。胚胎干细胞的基本特性是能够自我更新和具有全能性。自我更新是指在特定的培养条件下,胚胎干细胞具有无限增殖的能力。全能性是指其能分化为体内源自三个胚层的所有类型的细胞。它的这些基本特征使其在理论研究以及人类疾病的治疗方面具有多种重要应用。研究表明,在胚胎干细胞表面存在特异的分子,可以作为胚胎干细胞分离、鉴定以及纯化的标志物。然而,目前已经
近年来,目标检测算法不断推陈出新,检测速度与识别精度都有了很大的提升。单阶段的检测模型形成了一个相对固定的算法框架,但模型本身存在一些缺点和不足。首先,单阶段目标检测模型采用人为设定参数的方法生成检测边框,容易出现检测边框泛化性差的问题,造成模型在不同数据集的模型性能差异很大。同时,模型的检测边框在回归过程中,边框回归损失值并不能很好的反应出边框回归效果的真实好坏。具有相同回归损失值的边框的回归效
随着互联网和大数据的快速发展,全球每时每刻都在产生海量的,结构化或者非结构化的数据,这些数据格式多样化,有图片,文本,音频,视频等等。由于数据的多样化以及数据表示的多样性,大数据不经过结构化处理在许多情况下将无法有效的应用。本文重点研究多源异构的非结构化、半结构化初等数学领域数据如何表示为结构化数据,并依据数学领域知识图谱构建的方式构建初等数学概念知识图谱。然后将构建完成的概念知识图谱应用到纯数学
近年来云计算发展越来越迅猛,并在大流行中对全世界的复苏发挥重要作用,而虚拟化作为云计算的关键技术之一,也在不断地发展,作为软件虚拟化应用之一的桌面虚拟化技术在企业中也得到更广泛地使用。与此同时,Android手机全球出货量趋于收紧,受大流行影响,这一情况进一步加剧。目前市面上桌面虚拟化技术大多面向传统PC系统,缺乏对移动端系统的支持。Android手机长期受困于恶意程序偷取用户隐私现象;不仅如此,
随着中国城市化进程的加快,城市汽车保有量不断增加,城市交通需求呈现增长态势,引发出交通拥堵、交通事故等一系列关乎民生福祉的问题,严重阻碍了城市的高质量发展。在当前的城市智能交通系统中,快速准确的交通流预测是城市交通控制的必要前提,在智能交通系统中发挥着重要作用。基于以上背景,本文对道路数据特征展开研究,提出了不同交通原始数据情况下的两种短时交通流预测方法,设计并实现了一个短时交通流预测系统,主要工
随着科学技术的发展,各种各样定位设备不断涌现,可获取到轨迹数据的数量与种类迅速增长。对获取到的轨迹数据进行储存,分析在行为识别、交通规划、城市安全与防控等方面都可以发挥重要作用。其中,对人类轨迹的研究可以获取行为方式、个人偏好等关键信息,对许多领域的进一步研究都有推进作用。因此研究行人的轨迹预测算法具有重要意义。传统的轨迹预测方法基于数学统计模型对行人的运动模式建模难以适用于复杂场景。复杂场景中存
在城轨车辆运行试验过程中发现了车辆存在紧急通风逆变器不能启动的问题,针对该问题分析逆变器的启动工作原理,核查设备与车辆的接线点位及线缆的走线路径,最终确定问题的根本原因是由于设备干扰导致误触发停止信号使逆变器无法启动,经研究对电路进行改进,并经过实际运用验证表明改进措施行之有效。