【摘 要】
:
随着Internet的飞速发展,Web已经成为一个海量的、动态的、异构的信息资源库。这使得一方面出现“信息爆炸”,而另一方面,人们迫切需要从Web上快速、有效的获取信息和知识。W
论文部分内容阅读
随着Internet的飞速发展,Web已经成为一个海量的、动态的、异构的信息资源库。这使得一方面出现“信息爆炸”,而另一方面,人们迫切需要从Web上快速、有效的获取信息和知识。Web挖掘就是近来逐步兴起的针对Web上异质、非结构化信息进行知识发现的研究领域。 本文先是从数据挖掘理论引出Web挖掘的概念,并讨论了Web挖掘的流程和分类等,接着阐述了Web挖掘中的文本挖掘,并详细论述了文本分类、超文本分类。最后重点介绍了基于Lee模型的Naive Bayes文本分类方法和基于规则的超文本分类方法。 在文本分类领域,David Lee从心理学的角度提出Lee模型,Sanban用该模型定义特征词的影响度,但特征词的影响度在训练数据集上表现出倾斜性。我们根据Lee模型和贝叶斯概率重新定义了影响度,消除了倾斜性对分类的影响,研究了两种读取测试文档的策略下文本分类精度的变化情况,结果表明启发式的读取策略能以较小的时间代价极大地改善Naive Bayes的分类性能。 相对于普通文本,超文本含有更丰富的信息,Yiming Yang在此基础上提出了五种超文本规则。我们基于其中的三种规则,将四种超文本表示方法应用到超文本分类中,为了便于试验,利用两种典型的文本分类方法,并在分类精度以及其中两种表示方法的运行时间上和未应用超文本规则的分类方法进行对比,试验结果也显示了在选定的数据集上基于统计理论的Naive Bayes分类器的分类性能要优于基于向量空间模型的TFIDF分类器。
其他文献
随着信息技术的发展和Internet的广泛应用,Internet的安全性问题越来越重要。企业租用专线进行数据传输,固然可以保证安全性,但费用昂贵。虚拟专用网VPN(Virtual Private Net
人类感知系统所获取的信息中大约有80%-85%是视觉信息,因此,图像与视频是人类接受信息的最主要途径。而随着互联网、无线通信、移动计算、信息感知与采集等技术的稳步发展,多种类
USB技术正在飞速发展。简单来说,USB系统包括两部分:USB主机与USB外设。USB外设的开发与基于PC机的USB主机技术已经非常成熟,相对于在PC机上的丰富资源,嵌入式系统中有限的资
随着嵌入式技术和无线移动网络技术的快速发展,嵌入式移动装置已经广泛应用于社会生活的各个领域;移动装置自身的无线移动通信方式和计算资源的限制,使得移动装置在实际应用环
空间遥感技术的发展在经历了由黑白(全色)、彩色、多光谱成像三个阶段后,在二十世纪八十年代初进入了一个新阶段,即高光谱遥感阶段。高光谱遥感技术的发展使人的视觉得到了有效的
作为产品设计制造的一种手段,20世纪90年代初,逆向工程技术开始引起各国工业界和学术界的高度重视。随着计算机技术及测量技术的发展,逆向工程已经成为新产品开发、消化以及
随着高性能计算应用的日益增多,传统的高性能计算机在可扩展性和计算成本上不能完全满足需求,而网络技术的快速发展,使得利用网络计算模式进行高性能计算具有高扩展、低成本
网络已经成为人们日常生活的一个重要组成部分。人们的网络安全意识也日益加强,而数字签名(即电子签名)的设计,分析和研究,在某种程度上还是较滞后的。所以数字签名的研究对网络
可视化技术能够在三维图形世界中直接对具有形体的信息进行操作,和计算机直接交流,赋予计算机一种仿真的、三维的并且具有实时交互的能力。 雷达探测网络的系统构成一般都比
移动自组网(Ad Hoc网)作为一种无中心、自组织的无线移动通信网络,由于其高效的自组性,支持动态变换的网络拓扑结构和多跳转发技术,以及无中心节点的鲁棒性和抗毁性,使其广泛运用