论文部分内容阅读
万维网自20世纪90年代初有了第一个真正意义上的网页之后,其信息量与日俱增,速度发展之快,始料未及。人们在庆幸摆脱了信息匮乏的困境之余,又因为万雏网的海量性、复杂性、分布性以及非结构性而陷入了“信息过量”的境地。万维网的这些特性,使得人们在利用它来搜寻和获取有用的信息时候常常不尽如人意。
面对这样的问题,人们一直在探寻各种各样的解决方法,例如从万维网的信息表示出发,通过研究和制定有效的万维网表示规范来促进信息的规范表示,从而方便人们在此基础上开发有效的信息检索等服务。另外可以从研究万维网的信息特性出发,通过开发特有的搜索技术和分析处理技术来为人们提供有针对性的、高效的信息获取服务。例如,人们熟知的搜索引擎,万维网信息挖掘等。
本文分析和总结了目前万维网的信息表示方式及主要的信息获取方式后,根据用户利用万维网获取信息的一般过程,我们提出了自己的面向主题的智能化万维网搜索系统模型Ocean。系统根据用户对信息的特定需求,通过对用户的兴趣挖掘,建立了面向主题的语义搜索机制,其核心部分就是面向主题的万维网信息挖掘(Web Mining)。万维网信息挖掘是一个很大的研究领域,开展的相关工作不少。作为其中一个重要的分支——万维网内容挖掘(Web Content Mining),其研究成果直接关系到系统中搜索结果和智能查询结果的好坏,尤其是在面向主题的基础上,如何系统地运用多种技术在半结构化的HTML网页中获取语义是我们面临的一个挑战。
本文工作重点在于,把潜在语义分析技术与万维网内容挖掘相结合,在深入分析了几种潜在语义的实现原型后,将其运用于系统中,获得了较好的效果.本文的具体工作主要由如下相互关联的两大部分组成。
基于LSA的网页聚类/分类。关于网页聚类/分类,相关的研究工作也较为活跃;比较流行的聚类算法有基于划分方法、基于层次方法、基于密度方法、基于网格方法、基于模型方法等;比较流行的分类理论有TFIDF,NB,SVM等算法。然而这些算法都是基于词条无关性的,不符合人类的语言习惯;本文集合主题资源和人类语言的特点,将潜在语义分析模型的几种常用方法,包括LSA/SVD,PLSA以及近几年流行的LDA应用于文本聚类,进行了相关实验,并应用到系统中,取得了令人满意的效果。
基于LDA信息检索。在该部分工作中,我们利用了潜在语义分析的成果,对网页之间进行更加智能的分析。通过对用户兴趣的挖掘,根据人类语言学的一般特点,实现了语义搜索的模型,并将结果应用到了系统中。
以上工作的成果都在我们的Ocean系统中得到了具体应用和实现,并且效果良好。但是这些工作只是一个起步,还有很多工作需要深入开展下去,如网页预处理解析,用户兴趣模型优化和潜在语义模型的改进等。我们相信,这些工作的深入开展,将会使系统在内容挖掘的和智能查询的研究更加完善,也更有应用价值。