基于大数据的多文档摘要技术研究及其应用

来源 :西安工程大学 | 被引量 : 0次 | 上传用户:hnmaac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识经济时代的到来,人们对获取信息的速度和质量提出了越来越高的要求,多文档摘要技术应运而生,成为自然语言处理领域的研究热点。但随着网络信息爆炸式的增长,传统多文档摘要技术的处理性能已经无法满足实际需求。因此,本课题将Hadoop平台与传统的文档抽取技术相结合,并提出了基于句间邻近度的排序策略,旨在设计出一个高效、可扩展、质量好的摘要生成系统。其主要工作包括以下三方面:抽取技术及其并行化研究。摘要抽取的目的是抽取出信息覆盖度广并且冗余性小的文本或段落,它影响着整个系统的摘要质量。本课题将传统的TFIDF算法与MapReduce模型结合,设计了并行化的句子特征建模算法,在此基础上将句子抽取的图排序算法也进行了并行化实现,最后设计了冗余去除模块解决抽取结果的信息冗余问题。实验结果表明算法具有良好的扩展性和加速比。(2)句子排序技术的研究。抽取句子组的顺序影响着生成摘要的可接受程度,为了更加符合行文逻辑,本课题以主题文档集合为排序依据,通过条件熵和上下文来学习句子对的邻近度大小,结合提出的最大权值删减排序算法获得最终的排序结果。实验结果表明,在现有的句子排序策略中此方法具有较大提高。(3)多文档摘要技术在企业舆情监控系统中的应用。舆情监控系统通过爬虫抓取互联网上与企业相关的信息并生成热点话题,帮助企业用户应对突发事件所带来的负面影响。多文档摘要通过压缩整理相似的文档集合能够缩短用户获取信息的时间,帮助企业快速决策。
其他文献
本文讨论了直方图在图像增强中的应用,指出直方图修正技术的基础,阐述直方图均衡化的原理,给出基于VC++的具体实现方法及实验分析结果。
温州,一直以来以经济模式名扬天下。而掩盖在商名之下的是温州悠久的历史文化、深厚的人文底蕴、精湛的百工技艺、新颖的文化创意。作为地方媒体,我们有责任告诉世人一个全面的
改革开放以来,我国农村经济的发展开启了一个新的阶段。近年来,随着农村经济结构的多样化以及农村的城镇化发展,农村基础水利设施的现状与目前农村经济的发展现状以及农村经
本刊讯3月25日,第九届国际新闻摄影比赛(华赛)评比揭晓新闻发布会在杭州举行。美联社摄影师贝尔纳特·阿尔曼戈(BematArmangue)的《在加沙告别》问鼎年度新闻照片大奖。浙报集
海水烟气脱硫工艺是利用天然的纯海水作为烟气中SO2的吸收剂,无需其它任何添加剂,也不产生任何废弃物,具有技术成熟,工艺简单,系统运行可靠,脱硫效率高和投资运行费用低等特点。
报头是报纸的“商标”和眼睛,是区别于其他报纸的标志。,一般来说。报头固定在报纸的一个位置,极少有变动。但是,为了让自己的报纸版面表现得更与众不同,时下,一些美编开始尝试在报
结合内蒙古东苏高速公路路面工程的施工,介绍了玻璃纤维土工格栅在高速公路路面工程中的应用技术.
在中国电视台的金字塔格局中,城市电视台处于塔底,数量最多,覆盖范围却最小。随着新媒体的快速发展,移动互联网大众化普及时代来临,省台与市台之间"马太效应"加剧……城市台优