基于LSA的Web内容挖掘和信息检索

来源 :南京大学 | 被引量 : 0次 | 上传用户:yangmingmind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网自20世纪90年代初有了第一个真正意义上的网页之后,其信息量与日俱增,速度发展之快,始料未及。人们在庆幸摆脱了信息匮乏的困境之余,又因为万雏网的海量性、复杂性、分布性以及非结构性而陷入了“信息过量”的境地。万维网的这些特性,使得人们在利用它来搜寻和获取有用的信息时候常常不尽如人意。 面对这样的问题,人们一直在探寻各种各样的解决方法,例如从万维网的信息表示出发,通过研究和制定有效的万维网表示规范来促进信息的规范表示,从而方便人们在此基础上开发有效的信息检索等服务。另外可以从研究万维网的信息特性出发,通过开发特有的搜索技术和分析处理技术来为人们提供有针对性的、高效的信息获取服务。例如,人们熟知的搜索引擎,万维网信息挖掘等。 本文分析和总结了目前万维网的信息表示方式及主要的信息获取方式后,根据用户利用万维网获取信息的一般过程,我们提出了自己的面向主题的智能化万维网搜索系统模型Ocean。系统根据用户对信息的特定需求,通过对用户的兴趣挖掘,建立了面向主题的语义搜索机制,其核心部分就是面向主题的万维网信息挖掘(Web Mining)。万维网信息挖掘是一个很大的研究领域,开展的相关工作不少。作为其中一个重要的分支——万维网内容挖掘(Web Content Mining),其研究成果直接关系到系统中搜索结果和智能查询结果的好坏,尤其是在面向主题的基础上,如何系统地运用多种技术在半结构化的HTML网页中获取语义是我们面临的一个挑战。 本文工作重点在于,把潜在语义分析技术与万维网内容挖掘相结合,在深入分析了几种潜在语义的实现原型后,将其运用于系统中,获得了较好的效果.本文的具体工作主要由如下相互关联的两大部分组成。 基于LSA的网页聚类/分类。关于网页聚类/分类,相关的研究工作也较为活跃;比较流行的聚类算法有基于划分方法、基于层次方法、基于密度方法、基于网格方法、基于模型方法等;比较流行的分类理论有TFIDF,NB,SVM等算法。然而这些算法都是基于词条无关性的,不符合人类的语言习惯;本文集合主题资源和人类语言的特点,将潜在语义分析模型的几种常用方法,包括LSA/SVD,PLSA以及近几年流行的LDA应用于文本聚类,进行了相关实验,并应用到系统中,取得了令人满意的效果。 基于LDA信息检索。在该部分工作中,我们利用了潜在语义分析的成果,对网页之间进行更加智能的分析。通过对用户兴趣的挖掘,根据人类语言学的一般特点,实现了语义搜索的模型,并将结果应用到了系统中。 以上工作的成果都在我们的Ocean系统中得到了具体应用和实现,并且效果良好。但是这些工作只是一个起步,还有很多工作需要深入开展下去,如网页预处理解析,用户兴趣模型优化和潜在语义模型的改进等。我们相信,这些工作的深入开展,将会使系统在内容挖掘的和智能查询的研究更加完善,也更有应用价值。
其他文献
信息技术投资是20世纪90年代企业界和学术界最热门的话题之一。许多大型跨国企业都把对信息技术的投入放在企业的战略位置上。经济学家认为,企业对信息技术的巨额投入必将对全
工作流时间管理是工作流领域的重要研究内容。开展工作流时间管理的研究,对于增强工作流管理系统的柔性、提高工作流各活动执行实体的协作效率、确保工作流计划的高效执行、提
数据挖掘是一种比传统的数据分析技术更加复杂的分析和建模方法,目的是发现数据中隐藏的规则和有用的知识。经过这些年的发展,数据挖掘已经逐渐从集中数据集的挖掘发展到多方
数据仓库是市场激烈竞争的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按照决策主题的需要重新进行组织,以达到有效决策支持的目标。 数据仓库是多个分布
学位
随着国家科技基础条件平台的建设,各项科技资源不断丰富。科技工作者如何有效地使用这些资源,是网络科技环境必须解决的问题,也是资源整合与共享的关键。在使用资源的同时,科研人
随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务
随着市场经济的飞速发展,税务在社会经济中的作用越来越重要,如何提高税收工作的效率,降低税收成本,更好地服务于广大纳税人,成为税收工作的关键。税务信息化正是在这种背景下应运
World Wide Web是一个庞大和重要的信息来源,而且其规模还在飞速增长。随着Internet技术的普及和应用,人们越来越依赖Web以获取信息。 现有的Web网页大部分是以HTML进行编码
资源空间模型是面向网络资源的语义数据模型,基于资源的分类语义对资源进行组织和管理。科技文献资源空间是资源空间模型组织、管理海量科技文献资源的应用实例,构造科技文献