基于DPPs抽样算法和自编码器的自动摘要研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:L1010732268
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的普及在生产生活中带来了爆炸式的信息量,正催生着一种和以往截然不同的阅读方式。自动摘要系统作为一种短小精悍的信息检索方式应运而生,使用人工智能算法自动生成文本的摘要,是从信息时代迈向智能时代的技术支撑之一。目前研究者对于自动摘要研究重点的共识是优化文档表示学习方法和抽样算法。然而研究现状表明各种研究方法都很大程度上依赖人为经验因素来设计统计类句子特征,优先选择高分句子;用于算法评估的黄金摘要需要人为来标注,因此很大程度上具有主观性和随机性;多语言环境下语言先验知识匮乏,通过统计类特征的设计来评价句子的重要程度显得尤为困难。基于对DPPs的研究,本文希望将句子抽取过程与DPPs抽样算法匹配,使自动摘要的生成过程更多依据数据本身的分布特点,获得高质量、低冗余的自动。一方面,样本的质量特点和离散趋势将分别用传统统计特征和句子间相似度刻画;另一方面,本文使用神经网络语言模型与自编码器结合的方式来构建基于DPPs抽样所需的文本表示矩阵。这种抽样方式并不要求深厚的语言先验知识,DPPs的负相关性也在多种数据集上得以验证。因此本文基于DPPs抽样方法,提出了两种算法模型。在提供多种黄金摘要的BIRNDL数据集上进行了统计加权模型算法的实验:实验采用基于hLDA的多种统计特征加权方式刻画样本的质量特征,期待找到在不同类黄金摘要上统计特征的不同最佳线性融合方式,以便捕获高质量摘要的明显特征,研究黄金摘要的差异;同时通过设置对照实验,研究了 JACCARD距离和WMD分布式距离在描述句子相似度时的优劣。除此之外,为克服统计类特征在多语言环境上的设计难点,本文在MultiLing多文档和单文档数据集上进行了神经网络语言模型算法的实验:采用同属于无监督技术的自编码器和DPPs抽样算法相结合的方式,在神经网络语言模型构建的句向量基础上力求挖掘更深层次的语义特征。根据ROUGE评估值,实验结果验证了 DPPs抽样方法在多语言环境自动摘要算法上的通用性和有效性。基于算法,本文还设计了一个多语言自动摘要原型系统。原型系统支持用户查看算法模型在数据集上的评估结果,并输入长文本,按照需求选择不同摘要生成模式,最终为用户生成期望长度的系统摘要。
其他文献
随着传统汽车造成的环境污染危机愈发严重,纯电动车和可再生能源受到人们越来越多的关注。相应地,质子交换膜燃料电池(PEMFC)由于较高的能量转换率(30%~60%),运行噪声小和环境友好的特点,并且凭借高能量密度的优势,在新能源汽车发展中有巨大的潜力。通过引入动力电池组可以弥补燃料电池电动汽车无法回收制动能量、启动速度慢和输出特性偏软的缺点。双动力源可以使燃料电池混合动力汽车发挥更好的动力性,但是如
随着我国经济社会的高速发展和城市化进程的推进,机动车的数量日益增加,随之带来的城市交通问题也日益凸显。诸如交通拥堵、交通事故和汽车尾气造成的环境污染等问题,对城市区域路网的通行效率和市政交通管理都造成了严重的影响,城市交通管理者们迫切需要寻找合理高效的交通管制方案解决这些问题。而在影响城市区域交叉口通行能力的众多因素中,交叉口信号灯优化控制是至关重要的因素之一,也是现代交通管理的主要内容。利用在线
进入21世纪以来,我国经济快速发展,环境污染、生产隐患、资源浪费等问题随之产生且日趋严重。社会公众高度关注企业履行社会责任。能源企业作为我国国民经济支柱性产业,它关
随着人工智能技术的飞速发展以及知识图谱在垂直领域应用技术的成熟,知识图谱在医疗领域有着广阔的应用前景。医疗知识图谱可以帮助医生做决策、帮助大众了解疾病常识、帮助病人了解患病情况,知识图谱在医疗领域的价值不仅仅是一个医学知识库,更重要的是提供诸如医疗智能搜索等功能,是辅助诊疗的基础。随着医学信息化水平的提高以及大数据的发展,医疗领域积累了大量未被充分利用的数据,构建医疗知识图谱可以充分挖掘数据的潜在
随着建筑业的快速发展,因升降机人数超标而导致的重大安全事故时有发生,给国家和人民生命财产造成重大损失。论文设计了一种基于人数检测的施工升降机安全监控系统。论文讨论了远红外信号的空间传输通道问题,详细设计了安装传感器的多腔体结构。设计了远红外人数检测模块和升降机安全监控模块的硬件电路,包括ARM处理器电路、远红外信号调理电路、重量和高度传感器调理电路、NB模块连接电路、声光报警电路、升降机供电控制电
中文图像描述任务(Chinese Image Caption)作为跨学科跨领域的交叉研究问题,实质就是使计算机能够自动的对图片生成一句描述性中文,这对人来说很容易,对机器来说却很有挑战性。计算机需要提取图像的物体特征、空间联系、语义关系等信息,生成人类可读的能清晰表达出图像内容的句子,并力求句子准确、通顺。在中文图像描述任务中,基于神经网络的图像描述成为目前主流的研究方法,其中大多数都是采用编码器
相变存储器(Phase Change Random Access Memory,PCRAM)是一种具有优良性能的新型非易失性存储技术,具有良好的应用前景。相变材料铬掺杂碲化锑(Cr-SbTe)具有热稳定性高、结晶速度快等优势,具备替代传统相变材料锗锑碲(GST)的潜力。要实现先进相变材料工艺集成,与之相关的相变材料刻蚀是PCRAM制备的关键工艺。因此本文主要从Cr-SbTe薄膜的刻蚀工艺参数优化及
当今时代,人的作用在企业发展中越来越受到重视,人才是企业在瞬息万变的市场竞争中立于不败之地的根本保证,现代人力资源管理实践中往往将人力资源管理归纳为选、用、育、留四大功能,要发挥这四大功能,做好员工激励是核心和关键,一套科学、合理的员工激励方案,能够有效吸引人才、激发人才的主观能动性,促进企业的发展。目前虽然各大企业都非常重视员工激励,但有些企业特别是国有企业受体制机制的影响,“大锅饭”现象还不同
无人驾驶汽车自问世以来一直受到国内外车企的广泛关注,而可靠的视觉感知系统是对无人驾驶技术的重要支撑。交通标志承载着重要的道路行驶信息,系统准确地检测交通标志有利于引导驾驶员安全行驶,同时对于提升无人驾驶汽车的场景理解能力也有着重要意义。得益于硬件计算能力的提升以及广泛学者的研究,近年来深度学习发展迅速。尤其在计算机视觉领域,深度卷积神经网络已取得众多突破性成果。在图像识别、目标检测、图像语义分割等
据2019互联网趋势报告显示,图像数量持续海量增加。面对海量的图像数据,如何快速准确提取有价值信息成为计算机视觉领域亟待解决的关键问题。显著性检测技术模拟人类视觉系统从图像中分割出感兴趣的目标或区域,进而为其他计算机视觉任务提供服务。自1998年,显著性检测领域发展了很多优秀的基于启发式规则的算法,近几年全卷积网络又将显著性检测推向一个新的高度。本文针对复杂场景的显著性区域检测进行研究,提出两种基