【摘 要】
:
随着互联网的发展和智能设备的普及,微博、头条新闻等电子媒体开始广泛流行,网络中的信息量飞速增长,文本信息过载问题日益严重。在面对海量信息时,人们需要耗费大量时间对文本进行阅读和分析。因此,如何快速地获取有效信息成为社会各界普遍关注的问题,而文本自动摘要技术正是解决该问题的核心。目前的文本摘要方法主要分为抽取式和生成式。与抽取式相比,生成式方法利用先进的内容理解及文本生成模型,提升了摘要整体的逻辑性
论文部分内容阅读
随着互联网的发展和智能设备的普及,微博、头条新闻等电子媒体开始广泛流行,网络中的信息量飞速增长,文本信息过载问题日益严重。在面对海量信息时,人们需要耗费大量时间对文本进行阅读和分析。因此,如何快速地获取有效信息成为社会各界普遍关注的问题,而文本自动摘要技术正是解决该问题的核心。目前的文本摘要方法主要分为抽取式和生成式。与抽取式相比,生成式方法利用先进的内容理解及文本生成模型,提升了摘要整体的逻辑性和流畅性。然而,现有的生成式模型仍存在文本建模不全面、内容区分能力弱及远距离词句依赖缺失的问题,导致生成的摘要语句重复、次要信息冗余、无法涵盖完整的信息要点。针对以上问题,本文设计并提出了一种以卷积神经网络为基础的生成式文本模型GCTTS,并在新闻数据下进行了模型实践。我们的模型主要有以下三点改进:(1)设计并实现了一种基于图的文本表征算法。该算法从文章结构、单词语义及主题相关度入手,同时兼顾了文本本地特征及全局特征,提高了文本建模效果;(2)设计并实现了一种基于图卷积的内容选择网络。通过对分散信息点特征的有效学习及重写机制的引入,提高了模型信息要点选择的正确率。(3)与循环神经网络相比,层状堆叠的卷积结构更有利于获得语句间的长程依赖性。实验结果表明,本模型在ROUGE系列测评指标上均提升了近两个百分点,且生成的摘要内容更加简练。在技术落地方面,我们以新闻数据为研究对象,开发了具有数据自动获取,报导归纳,摘要展示的完整分析系统。
其他文献
随着物联网的快速发展,作为物联网应用的一部分,水下传感网络在海洋勘探和水环境监测应用等领域具有极高的研究价值。由于水下环境复杂,传感器节点有限,水下充电极其困难。因此,降低水下传感网络能耗、提高网络传输效率成为关键问题。路由协议决定数据包要遵循的路径,良好的路由协议不仅能够降低网络能耗,提高网络效率,还可以增强数据传输的可靠性。因此,设计高效的水下传感网络路由协议变得极其重要。本文围绕水下传感网络
随着人工智能的兴起,机器人技术不断的发展,无人驾驶技术已经成为全球研究热点。无人驾驶技术主要利用摄像机、激光雷达、定位惯导系统(IMU)等传感器实现对周围环境的实时感知。而目标检测与跟踪是自主车辆环境感知的重要内容,也是自动驾驶车辆路径规划和决策的重要依据。目前,障碍物检测和目标跟踪算法主要应用在视觉摄像头和3DLidar上。虽然利用视觉作为无人驾驶的主要传感器进行障碍物检测和跟踪的方法是目前的主
随着铁路事业不断发展,列车在经济和社会生活中越来越重要。列车行车安全也成为铁路工作的重中之重。列车运行过程中,驾驶员扮演着重要角色,现阶段对驾驶员安全驾驶的监管仍依赖于人工事后查阅,效率较为低下。本文以此为背景,使用计算机视觉技术对驾驶员行为进行识别和分析,识别结果可用于驾驶员行为的监管,以此实现驾驶员行为监管的智能化。论文主要研究内容如下:(1)驾驶员监控视频图像增强。本文使用了改进的Retin
近年来,面对复杂严峻的国际环境和艰巨繁重的改革发展稳定任务,我国国家经济仍取得了较为快速的发展,居民个人收入有明显提高。居民收入的增长提高了个人所得税的收入,同时也为个人所得税的征收管理带来了新的机遇与挑战。国地税合并后,个人所得税的征收管理过程中面临着一些新问题,个税改革让更多纳税人涉及其中,这样的新形势下,对于个人所得税征收管理的研究就变得很有实际意义。哈尔滨市松北区作为哈尔滨新区的核心承载区
束鹿凹陷位于冀中坳陷南缘,是宁晋凸起和新河凸起之间的一个东断西超的单断箕状凹陷。束鹿凹陷面积小、丰度相对低、资源转化率低,勘探潜力较大。束鹿凹陷古近系地层以砂泥岩互层沉积为主,形成良好的储盖组合,以构造油气藏勘探为主,但受到层位解释不准确,部分存在窜轴现象以及缺乏断裂系统划分的影响,制约了其构造油气藏的勘探精度;同时,由于潜山顶面坡积砾岩的存在,一方面有利于潜山油气保存,另一方面增加潜山顶面识别难
近年来,微流控技术在肿瘤细胞富集方面得到了广泛关注。在已有的研究中,微流控通道截面受限于简单的几何形状,对微流控通道内流场的研究带来很大的局限性。本研究受自然界中河流弯道截面的启发,提出一种3D打印类河弯截面微流控通道,用于基于尺寸的粒子聚焦和富集。本研究设计了参数不同的微流控通道截面,基于速度场和旋度场仿真结果,发现顶点长度为1000μm时,通道截面上产生的涡旋中心最靠近通道外壁,从而为粒子的受
油酰乙醇胺(OEA)是一种内源性的PPAR-α高亲和性配体,因其安全、高效、低副作用的特点,有望成为新一代抗肥胖药物。文献报道的OEA合成路线大多反应条件不温和、需色谱分离、生产周期长、三废多、不经济。针对这一现状,本文开发了一条绿色、温和、高效的OEA合成工艺,优化的反应条件为:甲醇钠用量为油酸乙酯质量的6%,油酸乙酯与乙醇胺的摩尔比为1:7.5,反应温度为室温,反应时间为2h。粗品经乙酸乙酯重
近年来,金融市场动荡不断,“黑天鹅”事件接连发生,使得金融风险的国际性传染呈现出常态化、迅速化、短期化的特征,金融市场的波动性受到普遍关注。本文基于波动率指数,研究金融风险在世界五个主要金融市场——中国上海、中国香港、美国、欧洲、日本间传染的相依结构、强度和方向,并在此基础上,提出有助于提升我国的国际金融风险管理水平的建议。在藤Copula模型的构建中,本文采用ARMA-GARCH-偏t模型作为边
近年来全球极端干旱频发,给社会经济和人民生活带来严重影响。中国由于地处东亚季风区,干旱频繁,受到社会各界广泛关注。前人研究表明,中国东部的干旱由气候系统内部变率和外部强迫主导。而火山外强迫与内部变率线性叠加能够加剧干旱。然而,不同干旱时期火山喷发以及不同强度火山喷发对干旱的影响是否存在差异,历史时期是否存在内部变率与火山外强迫共同影响的干旱?这些问题尚未得到解决。因此,本文基于通用全球模式(Com
据互联网数据中心发布的报告《数据时代2025》显示,全世界产生的数据总量已经在2018年达到33ZB,互联网数据正处于爆发式的增长阶段。人们在享受信息化社会带来的信息、资源共享利好的同时,也不得不“痛苦”的在互联网的海量数据中寻找自己感兴趣的“涓涓细流”,因而快速、准确地获得个性化信息服务这一需求也不断增长。同时,人们也更倾向于使用零散化的时间,更为被动的获取信息。而传统的使用搜索引擎、查看信息门