论文部分内容阅读
Internet高速繁荣的今天,每天出现在网站上的信息成指数型增长。有效地管理组织这些高速增长的信息,并从海量的信息里准确快速地找到客户所需要的信息已经成为数据挖掘工作者迫在眉睫的问题。Web文本分类算法可以很好的解决这个问题,但是传统的分类算法面对维数很高的Web文本,分类效率和分类精度就显得捉襟见肘。降维技术就成了解决这个难题的关键,高准确率的Web文本分类算法和高效率的降维算法可以大大提高文本的分类精度并节约用户宝贵的时间。Web文本分类在数字图书馆、搜索引擎和信息检索等领域都会起到举足轻重的作用,应用前景非常看好。本文研究了如何结合流形学习方法来提高中文Web文本分类算法的性能,主要内容如下:1)首先,比较了当前主流降维方法和分类算法在Web文本分类应用中的优势和不足,并分析了流形学习算法在文本降维领域拥有的广阔前景,提出流形学习应用于Web文本降维领域的构想。同时,介绍了流形学习算法在处理非线性数据时的优越性,着重介绍了MDS、ISOMAP和LLE等几种流形学习算法,并用实验证明了它们在提取高维数据中嵌入的低维结构时的效果。此外,针对中文网页预处理过程展开了深入的探讨,论述了网页预处理的过程。2)其次,提出了基于流形学习的中文Web文本分类算法,该算法先用流形学习方法对Web文本数据进行降维,再用分类器进行分类。具体来说,就是用ISOMAP算法对高维数据降维,利用传统的分类算法进行分类,并比较降维前后分类的效率和精度。实验结果表明,通过利用流形学习算法对Web文本数据进行降维处理,在不失精度的前提下有效地提高了分类算法的效率。3)最后,对得到的参数和所构建的分类器进行评估,从维数的选取、查准率和查全率的变化,全方位比较了分类器的性能,确定最优参数和最优路径。并提出了一种新的Web文本分类效果评价标准:(HF1-T)值,以此为依据说明经ISOMAP降维后分类的分类器整体性能有很大的提高。