【摘 要】
:
随着互联网信息技术的快速发展,数据规模的速度呈指数增长,文本信息出现爆炸性增长,人们几乎被文本大数据所淹没。庞大的文本数量已经远远超出人工所能处理的极限,如何高效地从大量的文本信息中提取出重要而有用的信息来减轻阅读压力是大数据时代需要重视和亟需解决的问题。运用自动文本摘要技术,可以把繁复的文章生成准确的摘要,快速了解文章的主要内容和框架,减轻阅读压力,方便读者准确把握阅读方向并找到需要的内容。基于
论文部分内容阅读
随着互联网信息技术的快速发展,数据规模的速度呈指数增长,文本信息出现爆炸性增长,人们几乎被文本大数据所淹没。庞大的文本数量已经远远超出人工所能处理的极限,如何高效地从大量的文本信息中提取出重要而有用的信息来减轻阅读压力是大数据时代需要重视和亟需解决的问题。运用自动文本摘要技术,可以把繁复的文章生成准确的摘要,快速了解文章的主要内容和框架,减轻阅读压力,方便读者准确把握阅读方向并找到需要的内容。基于以上原因,自动文本摘要技术成为自然语言处理的一个研究热点之一,同时,自动文本摘要技术也在很多其他领域蓬勃发展,比如:搜索引擎、生成报告小结、文章压缩等等。本论文在搜狗公开的新闻数据集上,对Text Rank算法进行分析,并根据其不足之处,对算法进行改进,用于提高文本摘要自动抽取的准确率和召回率。并针对Text Rank忽略句子位置信息、忽略句子语义信息和边权重计算不理想三个问题,本文提出了相应的改进方法。本文工作主要包含以下方面:(1)将新闻数据进行文本预处理,主要包括去除影响文本摘要的无关文字、文本分词、去停用词和文本表示等。(2)利用TF-IDF将句子进行文本表示,并根据句子向量计算句子间的相似度。(3)利用词向量模型Skip-gram训练外部文档词向量,并根据外部文档词向量获得内部文档词向量,然后计算内部文档中句子间的相似度。(4)融合Text Rank算法和TF-IDF算法,加入句子的位置信息,并修改权重公式。(5)根据TF-IDF与Word2Vec计算出的句子相似度,构建新的句子相似矩阵。本文的创新点为:(1)在融合TF-IDF算法和Text Rank算法的同时,加入了句子的位置信息,在一定程度上增加了重要句子的得分。(2)通过计算TF-IDF和Word2Vec各自的句子相似度,构建出新的句子相似矩阵,将词频和语义相融合,改进了边权重计算。
其他文献
监测局部pH的微小变化对于探索和理解电催化、生化工程、细胞生物学和生物医学等广泛领域的化学反应和生理过程是至关重要的。DNA作为一种可编程的材料,具有良好的生物相容性和空间寻址能力,在生物传感、药物递送和分子机器的构建等方面具有重要的意义。其中,DNA折纸术作为一种划时代的DNA自组装技术,能够可控的构建各种复杂的静态和动态纳米结构,其构象变化和纳米精度的定位功能为探测生化反应过程、研究单分子相互
当今科学技术迅速发展,5G通信技术已经成为全球范围内的研究热点。微带可重构天线因具有小型化,智能化,可集成化以及多功能化等优点,受到社会各界关注。本文设计了频率可重构5G微带天线、频率与辐射方向图混合可重构5G微带天线,具体工作如下:(1)频率可重构5G微带天线设计。第一种方式是通过改变天线辐射结构,由PIN二极管来控制天线主辐射贴片与附加贴片的连接与断开,实现运营商5G下行通信频段3.3-3.6
疾病标志物的早期检测对于疾病的临床诊断以及后续治疗具有极其重要的意义。光电化学(PEC)生物分析技术是近几年出现的一种新颖的,有前途的生物分子检测手段,PEC生物传感器采用光作为激发源,电信号作为输出检测信号,能够有效降低背景信号,具有灵敏度高,响应快,特异性强等优势。在PEC传感器的设计中,光电材料的确定尤为关键,具有优异性能的光电材料和较高的光电转换效率是提高生物传感器性能的关键因素。本论文主
量子点半导体光放大器(SOA-QD)具有高增益、高饱和输出功率、低噪声系数、低温度灵敏性等优点,因此能够满足高速全光网络对器件的反应速度与传输质量的要求。利用QD-SOA实现的马赫-曾德尔干涉仪(MZI-SOA-QD)在信号的传输过程中能够克服反馈光波对光源的影响,并且还具有高输出信噪比、高消光比等特点,因此,QD-SOA-MZI在全光波长转换与传感解调等领域有着广泛的应用前景。利用QD-SOA-
《2017版普通高中化学课程标准》要求开展“素养为本”的化学教学,然而,“素养为本”的化学教学开展情况如何,必须借助于教学评价才能了解。以往的教学评价研究多从教师的“教”出发开展教学评价,存在一定的片面性。本研究在梳理过往研究的基础上,从“教”与“学”两方面出发构建核心素养视域下的高中化学教学评价模型,并编制问卷开展实证研究,得出研究结论并给出教学改进建议。为了构建核心素养视域下的高中化学教学评价
陆地生态系统碳循环是全球碳循环的重要组成部分,而植被总初级生产力(Gross Primary Productivity,GPP)深刻参与在陆地生态系统碳循环中。GPP不仅可以反映陆地生态系统的生产力水平,同时可以表征生物圈与大气圈碳交换的通量状况。草地生态系统GPP是评估全球陆地碳汇以及调节陆表过程的重要生态因子,在全球变化背景下的陆地碳循环中发挥着重要作用,但也极易受气候变化的影响。尤其是近年来
民和盆地位于祁连构造带的中祁连地块东段,所处的地质环境异常复杂,构造活动相当强烈。从古生代开始,区域内经历了多次块体碰撞拼接过程,到中生代盆地内接受了巨量的陆相沉积,再到新生代剧烈的剥蚀夷平作用,可以说在漫长的地史进程中民和盆地经历了复杂的地理演变。本文主要从地貌演化入手,通过野外实地调查、实验分析并结合已有的研究成果对民和盆地主要成盆发育期的演化背景,现今的地形地貌特点、水系发育特征以及区域典型
作为地球水循环的基本组成部分,降水具有重要的水文学意义。然而,在复杂地形和恶劣气候条件的影响下,我国西北地区降水观测工作难度大,获取某一山区观测数据更为困难。卫星遥感降水反演技术的发展,为克服这一局限提供了可能。受传感器、地形及气候等因素的影响,不同降水产品在同一区域的适用性存在着明显差别。本文基于适用性较好的CHIRPS、GSMaP、TRMM 3B42 V7和SM2RAIN四套降水资料,分别从降
智慧大棚是物联网技术在农业生产领域的典型应用。智慧大棚是指利用大棚中的各种传感器对温度、湿度、光照等信息进行实时监测,在预警系统的支持下,对收集到的信息进行及时检测,发现异常,报告给用户,从而控制大棚内的卷帘、灯光、灌溉等设备,使作物始终生长在适宜的环境中,提高作物的质量和产量,增加收益。在这个过程中,预警系统对收集到的传感器数据进行异常检测是至关重要的问题。然而,传统的面向静态数据的异常检测算法
随着信息化进程的持续发展,无线通信技术在现代社会中的应用越来越广泛。不断涌现的新兴业务、持续增长的用户规模、快速增加的设备数量对无线通信系统网络容量和资源利用效率提出了更高的要求。认知无线电(Cognitive Radio,CR)技术通过对无线通信环境的智能感知,能够实现无线频谱资源的共享和多用户干扰的协调,具有改善通信资源利用率和提升网络容量的巨大潜力。功率控制是认知无线电网络(Cognitiv