【摘 要】
:
互联网的迅速发展伴随着每天产生大量的文本数据,文摘是文本的主要内容,自动文摘能够给用户提供一种快速了解原文内容的方式。同时,自动文摘研究有着广泛且重要的应用场景,如
论文部分内容阅读
互联网的迅速发展伴随着每天产生大量的文本数据,文摘是文本的主要内容,自动文摘能够给用户提供一种快速了解原文内容的方式。同时,自动文摘研究有着广泛且重要的应用场景,如Web搜索引擎摘要、问答系统的知识融合以及舆情监督系统的热点和专题追踪等,因此,自动文摘的研究定会推动整个自然语言处理的发展。本文主要研究了中文抽取式和生成式自动文摘方法。对于抽取式自动文摘,调研到并实现了五类常用方法:基于规则和统计的方法、基于图模型方法、整数线性规划、词向量包方法以及机器学习方法。而且本文的重点是,在基于图模型的方法中,完成了多种方法来改进句子相似度计算,相比传统图模型方法取得了明显的效果提升;在机器学习方法中,融合了词性特征、依存句法特征、命名实体特征、词向量和统计特征等,构成了115维丰富且具有代表性的特征向量空间。本文将文摘任务作为回归问题,避免了将文摘作为二分类问题出现的样本类别偏斜以及不能做变长文摘的弊端,并且创新提出了回归值label的计算方法。对于生成式自动文摘,本文使用序列到序列(Seq2Seq)的深度学习模型来解决,解码器是根据编码器对源语言的抽象表示预测目标词序列的,正是这种抽象表示为生成式自动文摘提供了可能。本文虽然实现了基于深度学习模型的生成式自动文摘,但仍有很多弊端,如生成重复词等问题。为了方便展示,本文最后实现了一个Django系统来调用实验接口并呈现各方法的文摘结果。
其他文献
炼字,表现为"健字"与"活字"的运用。陶诗健字,往往赋形象以生命,着力于体现物象之神;苏诗健字主要是使意象人化,突出抒情主体的人格精神,体现出苏诗精神主体强化的特点。陶诗
俄罗斯的信息立法问题[俄]B.A.科佩洛夫1988年7月,前苏共中央政治局发表《关于制定社会信息化设想》决议,推动了前苏联社会信息化第二次高潮。从此,前苏联和俄罗斯的各类数据库数量猛增。信
从20世纪70年代开始,埃及在对外关系中极其看重发展和保持与美国的良好关系。纳赛尔时期埃美处于高度对抗阶段,萨达特时期埃美关系则全面发展,穆巴拉克以来埃美在保持密切合
将创新分为创新数量和创新质量,在理论分析的基础上,采用面板数据模型和面板门槛回归模型,以高技术产业为例研究两者与企业规模的关系,进一步深化熊彼特的企业规模与创新理论
庄子的“养生说”是从天、地、人三个方面,即以“天体”垂示法则,以“地水”彰显榜样,以“母婴”作为征象来追根求源的。可见,庄子并非从一般生理或医学的角度来谈论养生,而
女儿生性比较开朗,是个乖巧的孩子,喜欢看书,在幼儿园,老师常夸奖女儿爱学习,知识面广,喜欢帮助他人,独立学习的能力较强,而这些,主要是她爸爸的功劳!通过这些我也常和许多家长聊起孩
为研究滁菊挥发油的抗炎作用,采用二甲苯致小鼠耳廓肿胀、蛋清致大鼠足跖肿胀、大鼠纸片肉芽肿模型观察滁菊挥发油对急、慢性炎症的影响。结果表明,滁菊挥发油对二甲苯致小鼠
随着互联网信息技术的迅猛发展,人们的生活和工作方式也发生了根本性的变化。网络信息技术也融入到教育行业,颠覆了传统教学的单向模式。现代教育发展正朝着信息化、智能化、
20世纪50年代早期、中期,日本在战后经济恢复的基础上,建立了条块分立的“厚生年金”与“共济组合年金”等职业型养老保险制度。20世纪50年代末到70年代初,在经济高速发展和国力
“脱亚入欧”战略一直以来都是土耳其的基本国策,在此基础上,土耳其形成了亲近西方、疏远中东的外交传统。土耳其正义与发展党(以下简称正发党)上台后,根据国内及国际形势的