基于大数据的多文档摘要技术研究及其应用

来源 :西安工程大学 | 被引量 : 0次 | 上传用户：hnmaac

【摘要】

：

随着知识经济时代的到来,人们对获取信息的速度和质量提出了越来越高的要求,多文档摘要技术应运而生,成为自然语言处理领域的研究热点。但随着网络信息爆炸式的增长,传统多文

【作者】

：

王恒

【出处】

：

西安工程大学

【发表日期】

：

2004年期

【关键词】

：

大数据 MapReduce 多文档摘要图排序抽取算法句间邻近度排序算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着知识经济时代的到来,人们对获取信息的速度和质量提出了越来越高的要求,多文档摘要技术应运而生,成为自然语言处理领域的研究热点。但随着网络信息爆炸式的增长,传统多文档摘要技术的处理性能已经无法满足实际需求。因此,本课题将Hadoop平台与传统的文档抽取技术相结合,并提出了基于句间邻近度的排序策略,旨在设计出一个高效、可扩展、质量好的摘要生成系统。其主要工作包括以下三方面:抽取技术及其并行化研究。摘要抽取的目的是抽取出信息覆盖度广并且冗余性小的文本或段落,它影响着整个系统的摘要质量。本课题将传统的TFIDF算法与MapReduce模型结合,设计了并行化的句子特征建模算法,在此基础上将句子抽取的图排序算法也进行了并行化实现,最后设计了冗余去除模块解决抽取结果的信息冗余问题。实验结果表明算法具有良好的扩展性和加速比。(2)句子排序技术的研究。抽取句子组的顺序影响着生成摘要的可接受程度,为了更加符合行文逻辑,本课题以主题文档集合为排序依据,通过条件熵和上下文来学习句子对的邻近度大小,结合提出的最大权值删减排序算法获得最终的排序结果。实验结果表明,在现有的句子排序策略中此方法具有较大提高。(3)多文档摘要技术在企业舆情监控系统中的应用。舆情监控系统通过爬虫抓取互联网上与企业相关的信息并生成热点话题,帮助企业用户应对突发事件所带来的负面影响。多文档摘要通过压缩整理相似的文档集合能够缩短用户获取信息的时间,帮助企业快速决策。

其他文献

基于VC＋＋的直方图均衡化图像增强

本文讨论了直方图在图像增强中的应用,指出直方图修正技术的基础,阐述直方图均衡化的原理,给出基于VC++的具体实现方法及实验分析结果。

期刊

图像增强灰度直方图直方图均衡化

党报副刊，城市的文化窗口——温州日报副刊的文化呈现

温州，一直以来以经济模式名扬天下。而掩盖在商名之下的是温州悠久的历史文化、深厚的人文底蕴、精湛的百工技艺、新颖的文化创意。作为地方媒体，我们有责任告诉世人一个全面的

期刊

党报副刊历史文化温州日报窗口城市人文底蕴副刊版面

农村水利建设存在的问题

改革开放以来,我国农村经济的发展开启了一个新的阶段。近年来,随着农村经济结构的多样化以及农村的城镇化发展,农村基础水利设施的现状与目前农村经济的发展现状以及农村经

期刊