基于中文科技文献关键词的聚类系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:never0005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从古至今,信息对于人类的生产生活等方方面面都是非常重要的,特别是对于处于信息时代的我们更是如此。随着互联网技术的飞速发展,互联网己成为我们获取各种信息的主要渠道,但是充斥于互联网中的信息每天都在以指数规模增长且各种信息交织在一起,在这种情况下,如何准确获取有效信息自然成为了研究的重点。聚类分析是自然语言处理技术中的一项重要技术,是挖掘隐藏在海量信息背后的有效信息的重要方法。对于科学研究来说,一方面,各类论文、期刊、文献数量庞大难以全部阅读;另一方面,搜索引擎技术的大量运用也提供了数量巨大的词汇来帮助我们发现各种信息,因此如何通过对各种已有词汇进行聚类来发现有用信息成为了一个有实际意义的课题。本文首先分析了在当今信息爆炸的背景下,科学研究工作所面临的困境——文献检索技术无法满足实际应用需求,接着对文献检索技术进行了介绍,特别是对于其核心模块之一的网络爬虫进行了深入的研究,并对时下网络爬虫研究的重点方向——聚焦网络爬虫进行了全面和细致的学习,包括其体系结构、关键技术等。其次,本文简要介绍了自然语言处理中的聚类技术,并在此基础上分别介绍了词聚类技术、概念聚类技术。通过对目前流行的词聚类技术进行仔细分析,本文针对其聚类空间维度通常过高导致聚类复杂度过高的问题采用了基于原子概念的词聚类以期降低聚类复杂度,最终目的是结合网络爬虫技术与词聚类技术,通过在海量信息背景下基于原子概念的词聚类来解决当前由于信息爆炸导致的科学研究热点发现困难的问题。最后,在深入研究了上述理论知识的基础上,本文一方面设计并实现了用于从指定网站抓取指定数据的网络爬虫程序,另一方面,本文充分利用自然语言处理技术中的中文词聚类技术借助MATLAB中的FCM算法实现了基于原子概念的中文词聚类系统,并对实验结果进行了分析,基本取得了预期的效果。
其他文献
近年来,随着IPTV、移动电视、在线视频等业务的增长以及互联网、通信网络、广电网络三网相互融合的趋势,视频类业务已成为当前不可忽视的主流业务,而视频类业务的质量也成为各方
随着Intemet迅猛发展、企业需要管理的数据量日益增大,发展内部信息系统、完成企业管理信息化成为企业IT建设的重要议题。由此衍生出了,如何构建合理的可扩展的系统架构模式
近几年来,手机用户数量激增带来了大量移动业务的潜在用户,加剧了各电信运营商之间、各业务提供厂商之间的竞争。以业务为驱动的第三代网络的正式商用,进一步推动了移动业务的发
随着互联网上Web服务的大量出现,Web服务的应用也越来越广泛。如何从大量的Web服务中快速选取用户所需要的服务,成为了一个亟待解决的问题。当前的Web服务发现方法主要有基于关
微小卫星运行在恶劣的外太空环境中,承载着重要的任务,其运行特点及其在军事上的重要意义使其比一般系统具有更高的安全要求。星载嵌入式实时操作系统作为微小卫星系统的软件支
随着信息化建设的不断加强和计算机技术的深入发展,煤炭企业的信息化发展取得了长足的进步,基于各种开发平台所构建的软件系统在煤炭企业中得到应用,这些系统在功能、逻辑上
根据第二次全国残疾人抽样调查的结果,我国残疾人口总数为8296万,占全国人口的6.34%,我国残疾人口在全国各地均有分布,展现出了空间上高度的离散化。而管理这些残疾人相关的康复地
随着社会经济的发展,人们对地理信息的需求越来越多,也越来越多样化。计算机技术在地图领域的应用,也丰富了地图的展现能力,大大增加了地图能给人们提供的服务。人们常使用的公共
云计算是当今的热点话题,在工业界和学术界都得到了广泛的重视和发展。根据服务模式不同,云计算可分为三种类型:IaaS云(基础设施云)、PaaS云(平台云)和SaaS云(软件云)。本文主要
矩阵特征值问题作为线性代数的一个重要组成部分,是迅速发展的高性能计算领域中一个重要的研究问题,并在科学计算与工程领域中具有广泛和重要应用。而对称三对角矩阵特征值问题