基于离散微粒群算法的文本分类方法研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:aptxkid2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来和网络的日益普及,文本信息数据量呈爆炸式增长,因此,如何在海量的文本信息中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息处理的一个重要环节,已经成为信息技术领域的一个主要研究方向。 在研究现有的文本分类方法的基础上,论文以文本分类的准确度与分类时空复杂度综合考虑,结合微粒群算法具有收敛速度快、全局寻优能力强,易实现、容易理解并且模型简单等优点,将离散微粒群算法应用于文本分类,给出适用于离散微粒群算法的分类规则编码,构造出分类规则适应度函数来更准确地提取规则集,进而实现基于离散微粒群算法的文本分类方法设计。 实验结果表明,本文所用的分类方法对分类规则优化后整体查准率、查全率和综合分类率都比优化前有所提高,在基于离散微粒群算法的分类结果与KNN分类方法的测试数据比较显示,基于离散微粒群算法的查全率、查准率和综合分类率达到了KNN分类方法的水平;另一方面,由于KNN文本分类方法在分类的时候需要将所有样本存入计算机中,每次决策都要计算待识别样本与全部训练样本之间的距离进行比较,因此存储量和计算量都较大,而基于离散微粒群算法的分类方法在分类时只需要存储提取出来的主题词和分类规则,每次决策只需要待识别样本与每一类的分类规则计算得分进行比较,存储量和计算量都远低于KNN分类方法。 本文所做的主要工作包括: (1)研究文本分类的相关技术,重点探讨影响分类结果的两个关键技术:文本特征提取和文本分类方法,并对各种方法的优缺点进行了分析。 (2)引入离散微粒群算法分类规则编码设计,其主要思想是将知识表达为一种符号形式,每个微粒代表一个规则,然后利用离散的微粒群运动模式模拟鸟类觅食过程,实现对规则的优化学习,进而实现基于离散微粒群算法的文本分类方法设计。 (3)对基于离散微粒群算法文本分类方法进行实验及评价。对算法应用于文本分类问题的分类结果进行测试及分析,然后与KNN等传统方法的分类效率进行分析比对,并对本文所用算法应用于文本分类的时间、空间复杂度及适用范围进行详细讨论,归纳出本算法应用于文本分类问题的优缺点。 (4)指出进一步可做的研究。本文的后续工作拟实现在算法中根据最优解的变化速度来动态地确定迭代次数;并实现层次分类体系,使得可以在一个大类中的更小范围来寻找需要的知识;同时进一步扩大离散微粒群算法的应用范围。
其他文献
有关股票市场发展与经济增长之间的关系研究,一直就是股票市场研究领域中的前沿问题。西方的一部分学者认为,股票市场的发展和经济增长之间存在很强的正相关关系;而另一部分学
On May 20. at the invitation of the US National Committee on American Foreign Policy (NCAFP), CIIS President Qi Zhenhong attended the virtual panel Statecraft i
期刊
本文的立意是,探讨内资BOT建设项目投资机会的科学评价方法,以期通过此投资机会评价的研究,为投资商是否决定投资提供理论依据,也有助于政府将有限的资金用于最优的项目,期望
目的探究经阴道三维超声造影对宫腔内良恶性病变及其与微血管密度的临床应用。方法 80例患者均通过手术获得组织病理学结果,分为良性组(42例)、交界性组(12例)和恶性变组(26
证券行业分析师的工作是研究上市公司的投资价值,其工作的关键是权益估值模型的选择和使用。关于权益估值模型选择的研究,学术界主要侧重从优劣性的视角对各估值模型进行比较
在当前国际市场的竞争中,越来越多的品牌经营者为了不断提升自己的核心竞争力,而将其非核心业务外包给其他企业。如何对外包业务的质量进行有效的控制,成为品牌经营者们关注
作者认为两份重要的专业协会出版物发布的教学论坛有助于为优秀历史学家的文献收藏提供帮助。作者调查了历史学者信息需求的相关文献,并调查了发表于教学法论坛中的文章,发现
实施企业信息化是提高企业工作效率、增强企业竞争力的重要途径。对于我国大多数中小离散制造企业而言,实施一套符合企业实际情况的生产管理信息系统,则是企业信息化进程中的重
对于采用相关检测体制的全极化微波辐射计,通道互耦和相位不平衡使得接收机各个通道间发生串扰,从而导致该类型辐射计的定标有别于传统的两点定标。文章首先结合实际因素分析
巨灾风险证券化本质上是将巨灾风险转嫁到资本市场,利用资本市场的雄厚资金力量来化解。正确认识巨灾风险证券化的巨大潜力,大力推行巨灾风险证券化,对中国保险业的发展具有