基于KNN算法的中文文本分类研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:jiaranerzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网相关技术的飞速式发展,通过各个渠道散播的信息量急剧增大,同时也给急需获取有价值信息的人们带来了管理难题。文本分类技术能够高效的提取信息和挖掘知识,对于处理这些庞大而又杂乱的信息极具时代意义。   本文详细介绍和总结了较为经典和常用的文本分类所需若干关键技术,并分析了传统KNN算法的不足之处。在这基础上,提出一种基于模式聚合思想的改进KNN分类算法。传统的KNN算法依赖于文本和特征的相关性,无为增加了样本相似度计算的复杂程度,同时降低了算法的实用性。在改进的新算法中,文本向量空间模型构建在训练样本集上,样本相似度计算建立在载有文本和类别模式信息的基础上,这样就达到降低特征项的维数的目的。   经过对比相关实验结果,验证了所提出的基于模式聚合的改进KNN分类算法的效果与传统的KNN算法在分类效果上相比有所提高,达到了在保证分类精度与控制算法复杂度的平衡。
其他文献
道郎和都格矿区地表沙土和草原覆盖严重,直接寻找钨多金属矿的信息较少。地质地球化学研究结果表明,与钨多金属矿关系密切的是早白垩世钾长花岗岩,赋矿围岩主要是二叠纪辉石
教学内容:马克思主义诞生的条件  教学和学情分析:  本节微课选取的是北师大版九年级历史上册《第11课开辟新时代的“宣言”》中的难点内容“马克思主义诞生的条件”来进行授课的,因为此难点涉及经济基础和上层建筑、社会存在和意识形态、理论与实践等抽象的理论。初中生理解起来比较困难。所以教师通过补充一些便于学生理解、认识的历史素材来进行分析讲述的。  教学难点:分析马克思主义诞生的条件  教学方法:讲授法
期刊
卫星导航系统是各国太空战略的重要部分,随着其在军事、农业、交通、运输等各个方面应用越来越广泛,各国对其投入越来越大。导航卫星的主体是有效载荷部分,而有效载荷直接依赖于
美国次贷危机集中爆发后,全球资本市场遭遇了1929年以来最大的系统性金融危机,全球政治经济格局将随着危机的结束而重新塑造。中国既不存在次贷危机产生的土壤,外部的经济动
动态频谱资源共享(Dynamic Spectrum Sharing,DSS)目前成为了大幅度提升频谱利用率的关键技术之一。动态频谱共享技术突破了传统的频谱分配机制,从全新的角度来使用频谱资源,
目的:昆虫腹神经索内的DUM神经元是一类特殊的神经元.它们位于神经节的背侧中线附近,起着与脊椎动物交感神经系统相类似的作用。以蝗虫和蟑螂为对象,DUM神经元的形态与结构已经得
色彩是绘画中重要而富有魅力的艺术语言.色彩课教学是美术学科中最主要的专业基础课之一.19世纪,由于科学技术的发展,在光色理论方面有了很大的突破,一些有关色彩理论的论述
当代医学影像技术正朝多模态的分子影像方向快速发展,其中,核医学成像技术(PET和SPECT)与核磁共振成像(MRI)技术的融合是当前研究的前沿热点。常规的PET和SPECT成像探测是基
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
本文在比较全面地考察了云南蟋蟀物种及其地理分布基础上,开展了蟋蟀总科的区系分类、区系组成、分布格局等方面研究。主要研究结果分为以下3部分:1.本文共记述云南蟋蟀总科4