论文部分内容阅读
从古至今,信息对于人类的生产生活等方方面面都是非常重要的,特别是对于处于信息时代的我们更是如此。随着互联网技术的飞速发展,互联网己成为我们获取各种信息的主要渠道,但是充斥于互联网中的信息每天都在以指数规模增长且各种信息交织在一起,在这种情况下,如何准确获取有效信息自然成为了研究的重点。聚类分析是自然语言处理技术中的一项重要技术,是挖掘隐藏在海量信息背后的有效信息的重要方法。对于科学研究来说,一方面,各类论文、期刊、文献数量庞大难以全部阅读;另一方面,搜索引擎技术的大量运用也提供了数量巨大的词汇来帮助我们发现各种信息,因此如何通过对各种已有词汇进行聚类来发现有用信息成为了一个有实际意义的课题。本文首先分析了在当今信息爆炸的背景下,科学研究工作所面临的困境——文献检索技术无法满足实际应用需求,接着对文献检索技术进行了介绍,特别是对于其核心模块之一的网络爬虫进行了深入的研究,并对时下网络爬虫研究的重点方向——聚焦网络爬虫进行了全面和细致的学习,包括其体系结构、关键技术等。其次,本文简要介绍了自然语言处理中的聚类技术,并在此基础上分别介绍了词聚类技术、概念聚类技术。通过对目前流行的词聚类技术进行仔细分析,本文针对其聚类空间维度通常过高导致聚类复杂度过高的问题采用了基于原子概念的词聚类以期降低聚类复杂度,最终目的是结合网络爬虫技术与词聚类技术,通过在海量信息背景下基于原子概念的词聚类来解决当前由于信息爆炸导致的科学研究热点发现困难的问题。最后,在深入研究了上述理论知识的基础上,本文一方面设计并实现了用于从指定网站抓取指定数据的网络爬虫程序,另一方面,本文充分利用自然语言处理技术中的中文词聚类技术借助MATLAB中的FCM算法实现了基于原子概念的中文词聚类系统,并对实验结果进行了分析,基本取得了预期的效果。