基于互信息特征选择算法的文本自动分类研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:yy349764474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
身在电子信息量快速增长的社会,如何在海量的信息资源中迅速准确地找到所需信息,是当前信息处理领域的一个重要问题。文本分类的出现很好地解决了上述问题。文本分类是基于文本挖掘的一种组织信息的方法,它是根据大家已知的文本语料库,把未知的文本归纳到确定的那一类文本中去的过程。文本分类中,特征选择算法很重要,选取最能代表类别内容的特征可以提高分类的准确性。因此,本文研究和分析了特征选择算法中的互信息方法。面对传统的互信息算法模型,本文做了以下工作:  1.特征选择算法的模型进行了详细的分析。通过对传统的互信息算法的分析,在文本分类的特征选取时,没有考虑特征词在整个训练集中的不同类别内出现的频数和特征词在同一类别内的位置分布信息,也忽略了当特征词是高频词时带来的互信息权值是负值的问题,这致使文本分类性能较低。  2.在上述不足的基础之上,论文从特征词在类内分布不同和特征词在类间分布以及类内不同位置上分布等方面的因素考虑,同时也考虑高频词带给类别的权值是负值的问题,通过引入特征词条在类别内文本中的出现频数的因子、类内分布信息的因子以及特征项在不同类之间的分布因子,同时又引入相关的参数去修正高频词带来的评估值为负值的问题,提出一种改善的互信息(C_MI)特征选择算法。改善后的互信息模型有效地使用了特征项在类中和类别之间的分布频数。  3.本文通过利用复旦大学提供的基于JAVA版本的开源文本分类系统,通过修改相应代码实现了文本分类系统的设计。此外,并对改进的C_MI在设计的文本分类系统里进行了实验,实验结果表明,改进C_MI文本特征选择方法提高了分类的准确率。
其他文献
人类基因组计划的完成标志着生物信息学研究进入了后基因时代,人们开始系统的研究基因之间的相互作用关系,建立起基因及蛋白质调控网络,试图从系统的角度阐述基因的功能。  本
供应链管理(SCM)主要是协调决策单位间的生产运作,实现整体流程的优化与资源的充分利用。通过企业合作,增加市场竞争优势,在短时间内满足成员多样化需求的能力。可广泛应用于企业生产、销售等领域。具有重要的理论研究价值,因此受到广泛关注。近些年来,关于供应链协调优化的相关研究,主要是基于层次式计划模式。该模型假定单一决策者掌握生产制造的全部信息,并对供应链生产运作进行统一集中的决策方式。基于层次式计划模
在网络模拟研究中,单节点计算环境无法模拟大规模网络。并行网络模拟通过引入更多的计算节点可以解决这个问题。方法是将模拟拓扑划分为几个部分,分别由各个计算节点负责模拟
随着信息技术的发展和数字化产品的普及以及Internet广泛深入的应用,从消费电器到工业设备,从民用产品到军用器材,嵌入式系统已被广泛的应用到网络、手持通信设备、消费电子
基于复用的软件开发可以有效的提高软件开发的质量和效率。构件技术在软件复用中扮演着重要角色。而如何识别出粒度合适的构件,以使构件能够满足比较通用的业务需求已成为基于
针对如今计算机病毒和计算机网络的发展趋势,研究一种可以高效并且可以误报率低的新病毒检测方法就显得尤其重要。现存的病毒检测系统,大多数都是采用需要中心节点的单一网络集
随着互联网的飞速发展,越来越多的互联网用户开始成为电子邮件的受益者,同时网络空间中的电子邮件信息量也呈现出不断膨胀的趋势。电子邮件作为人们常用的一种通信工具,其中
随着计算机网络技术的迅猛发展,办公自动化和企业信息化的不断普及,人们对数据存储的需求越来越高。单机所包含的磁盘容量己经不能满足人们的日常需要,这就要求有一种可靠的
基于特征造型技术的三维CAD系统目前已广泛应用于产品设计,同时CAE在产品设计与优化中也起到了越来越重要的作用.而有限元是最为广泛使用的CAE方法之一。由CAD系统建立的模型
机制设计是微观经济学和博弈论的分支领域,它的核心思想是设计某种规则,在理性代理参与的条件下,达到既定目标,获得最大社会利益。但由于代理能力的有限性和外部环境的不确定性,不