论文部分内容阅读
随着知识经济时代的到来,人们对获取信息的速度和质量提出了越来越高的要求,多文档摘要技术应运而生,成为自然语言处理领域的研究热点。但随着网络信息爆炸式的增长,传统多文档摘要技术的处理性能已经无法满足实际需求。因此,本课题将Hadoop平台与传统的文档抽取技术相结合,并提出了基于句间邻近度的排序策略,旨在设计出一个高效、可扩展、质量好的摘要生成系统。其主要工作包括以下三方面:抽取技术及其并行化研究。摘要抽取的目的是抽取出信息覆盖度广并且冗余性小的文本或段落,它影响着整个系统的摘要质量。本课题将传统的TFIDF算法与MapReduce模型结合,设计了并行化的句子特征建模算法,在此基础上将句子抽取的图排序算法也进行了并行化实现,最后设计了冗余去除模块解决抽取结果的信息冗余问题。实验结果表明算法具有良好的扩展性和加速比。(2)句子排序技术的研究。抽取句子组的顺序影响着生成摘要的可接受程度,为了更加符合行文逻辑,本课题以主题文档集合为排序依据,通过条件熵和上下文来学习句子对的邻近度大小,结合提出的最大权值删减排序算法获得最终的排序结果。实验结果表明,在现有的句子排序策略中此方法具有较大提高。(3)多文档摘要技术在企业舆情监控系统中的应用。舆情监控系统通过爬虫抓取互联网上与企业相关的信息并生成热点话题,帮助企业用户应对突发事件所带来的负面影响。多文档摘要通过压缩整理相似的文档集合能够缩短用户获取信息的时间,帮助企业快速决策。