论文部分内容阅读
随着信息时代的到来和网络的日益普及,文本信息数据量呈爆炸式增长,因此,如何在海量的文本信息中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息处理的一个重要环节,已经成为信息技术领域的一个主要研究方向。
在研究现有的文本分类方法的基础上,论文以文本分类的准确度与分类时空复杂度综合考虑,结合微粒群算法具有收敛速度快、全局寻优能力强,易实现、容易理解并且模型简单等优点,将离散微粒群算法应用于文本分类,给出适用于离散微粒群算法的分类规则编码,构造出分类规则适应度函数来更准确地提取规则集,进而实现基于离散微粒群算法的文本分类方法设计。
实验结果表明,本文所用的分类方法对分类规则优化后整体查准率、查全率和综合分类率都比优化前有所提高,在基于离散微粒群算法的分类结果与KNN分类方法的测试数据比较显示,基于离散微粒群算法的查全率、查准率和综合分类率达到了KNN分类方法的水平;另一方面,由于KNN文本分类方法在分类的时候需要将所有样本存入计算机中,每次决策都要计算待识别样本与全部训练样本之间的距离进行比较,因此存储量和计算量都较大,而基于离散微粒群算法的分类方法在分类时只需要存储提取出来的主题词和分类规则,每次决策只需要待识别样本与每一类的分类规则计算得分进行比较,存储量和计算量都远低于KNN分类方法。
本文所做的主要工作包括:
(1)研究文本分类的相关技术,重点探讨影响分类结果的两个关键技术:文本特征提取和文本分类方法,并对各种方法的优缺点进行了分析。
(2)引入离散微粒群算法分类规则编码设计,其主要思想是将知识表达为一种符号形式,每个微粒代表一个规则,然后利用离散的微粒群运动模式模拟鸟类觅食过程,实现对规则的优化学习,进而实现基于离散微粒群算法的文本分类方法设计。
(3)对基于离散微粒群算法文本分类方法进行实验及评价。对算法应用于文本分类问题的分类结果进行测试及分析,然后与KNN等传统方法的分类效率进行分析比对,并对本文所用算法应用于文本分类的时间、空间复杂度及适用范围进行详细讨论,归纳出本算法应用于文本分类问题的优缺点。 (4)指出进一步可做的研究。本文的后续工作拟实现在算法中根据最优解的变化速度来动态地确定迭代次数;并实现层次分类体系,使得可以在一个大类中的更小范围来寻找需要的知识;同时进一步扩大离散微粒群算法的应用范围。