基于流形学习的中文Web文本分类算法研究

来源 :河北工业大学 | 被引量 : 1次 | 上传用户:h872889544
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet高速繁荣的今天,每天出现在网站上的信息成指数型增长。有效地管理组织这些高速增长的信息,并从海量的信息里准确快速地找到客户所需要的信息已经成为数据挖掘工作者迫在眉睫的问题。Web文本分类算法可以很好的解决这个问题,但是传统的分类算法面对维数很高的Web文本,分类效率和分类精度就显得捉襟见肘。降维技术就成了解决这个难题的关键,高准确率的Web文本分类算法和高效率的降维算法可以大大提高文本的分类精度并节约用户宝贵的时间。Web文本分类在数字图书馆、搜索引擎和信息检索等领域都会起到举足轻重的作用,应用前景非常看好。本文研究了如何结合流形学习方法来提高中文Web文本分类算法的性能,主要内容如下:1)首先,比较了当前主流降维方法和分类算法在Web文本分类应用中的优势和不足,并分析了流形学习算法在文本降维领域拥有的广阔前景,提出流形学习应用于Web文本降维领域的构想。同时,介绍了流形学习算法在处理非线性数据时的优越性,着重介绍了MDS、ISOMAP和LLE等几种流形学习算法,并用实验证明了它们在提取高维数据中嵌入的低维结构时的效果。此外,针对中文网页预处理过程展开了深入的探讨,论述了网页预处理的过程。2)其次,提出了基于流形学习的中文Web文本分类算法,该算法先用流形学习方法对Web文本数据进行降维,再用分类器进行分类。具体来说,就是用ISOMAP算法对高维数据降维,利用传统的分类算法进行分类,并比较降维前后分类的效率和精度。实验结果表明,通过利用流形学习算法对Web文本数据进行降维处理,在不失精度的前提下有效地提高了分类算法的效率。3)最后,对得到的参数和所构建的分类器进行评估,从维数的选取、查准率和查全率的变化,全方位比较了分类器的性能,确定最优参数和最优路径。并提出了一种新的Web文本分类效果评价标准:(HF1-T)值,以此为依据说明经ISOMAP降维后分类的分类器整体性能有很大的提高。
其他文献
无线传感器网络(Wireless sensor networks, WSN)技术的飞速发展和日趋成熟,使得其能够提供的信息采集功能和查询处理能力不断强大,进而推动了无线传感器网络在诸多领域的广
VPN就是在公用网络上利用专门的加密技术构建一个虚拟的、专用的隧道,连接在Internet的两台机器通过隧道进行通信,VPN技术基于Internet,但又独立于Internet,因为隧道是私有的
针对传统的交通参数检测器存在的交通参数提取不足及安装、维护上的损耗问题,以车辆视频序列为研究对象,论文在已有的运动检测算法理论的基础上,改进了道路图像分割算法以及
随着信息时代的到来,互联网技术得到了飞速的发展,数字化图书馆、数字化办公也变得越来越普及,于是网络上的信息在以几何级数般的速度在膨胀。面对网络上如此浩瀚的信息,和人们有
近年来,数据挖掘技术被广泛地应用到各个行业领域中,已逐步成为当今计算机应用技术和理论研究中最热门的领域之一。在实际的数据挖掘过程中,因为真实数据经常出现缺失、冗余、不
人脸识别作为一种新兴的生物特征识别技术,由于其具有直观性、被动性和非侵犯性而成为当今生物特征识别中最活跃的一个领域。人脸识别问题的关键是识别系统能否适应实际应用
近年来,无线传感器网络得到了极大的发展。无线传感器网络是由部署在监测区域内大量的廉价微型传感器节点组成,通过无线通信方式形成的一个多跳的自组织网络,其目的是协作的
PLC(Programmable Logic Controller)作为工业自动化领域中最重要、应用最广泛的控制装置,稳居工业生产自动化三大支柱(可编程控制器、机器人、计算机辅助设计与制造)的首位。
随着全球经济一体化的到来,市场上产品之间的差别越来越小,行业内企业的技术优势也逐渐缩小甚至消失,从而导致市场竞争形式的根本性变化。现代市场的竞争已超越了传统意义上的企
网格计算是近年来国际上兴起的一种重要网络技术,它可以帮助人们更好地共享Internet上的一切资源,其重要组成部分之一是作业调度。网格具有动态性、分布性、异构性、多样性等