基于CHI和KNN的文本特征选择与分类算法的研究

来源 :北京工业大学 | 被引量 : 11次 | 上传用户：lpcumt

【摘要】

：

随着文本信息的快速膨胀,从庞杂的信息中获取对自己有用的信息越来越困难。文本自动分类作为一种有效组织和管理文本信息的数据挖掘方法,解决了文本信息杂乱的问题,在信息检

【作者】

：

樊存佳

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2016年01期

【关键词】

：

文本分类特征选择 CHI统计 TFIDF方法 KNN方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着文本信息的快速膨胀,从庞杂的信息中获取对自己有用的信息越来越困难。文本自动分类作为一种有效组织和管理文本信息的数据挖掘方法,解决了文本信息杂乱的问题,在信息检索、信息过滤、邮件过滤、数字化图书馆等领域有着非常广泛的应用前景。研究出一套分类精度高、效率高、稳定性好的文本分类方法具有重要的学术意义和实用价值。特征选择、特征加权及分类是文本分类过程中较重要的环节,本文以此为主要内容展开研究。首先简要说明了文本分类的研究背景和意义,阐述了文本分类的国内外研究现状,概括了本文的研究内容和章节安排。然后介绍了文本分类过程的关键技术和分类性能评价指标,为后期研究打好基础。最后,本文针对CHI特征选择、TFIDF特征加权、KNN分类方法进行了深入研究并加以改进,主要研究内容如下:(1)针对CHI模型未考虑特征项词频,及放大了在指定类中很少出现但在其他类中普遍存在的特征项权重的缺点,本文基于传统CHI算法,提出了一种自适应的特征选择方法,该方法引入了自适应比例因子,可自动调节与类别呈正、负相关特征项的比重,消除了人为选取比例因子带来的误差,又引入了词频因子和类间方差,使最终选择出的特征项在特定类中出现频数多而在其他类中分布较少。结合KNN方法进行实验,实验结果表明,无论在平衡语料集上还是在非平衡语料集上,所提方法都有较好的分类效果,尤其提高了在非平衡语料集上的分类效果。(2)针对TFIDF方法未考虑特征项类间、类内分布因素的不足,本文提出了一种基于CHI统计和信息熵的改进型TFIDF特征加权方法,由于特征项的2?统计量和类内信息熵分别反映了特征项的类间、类内分布情况,因此,在传统TFIDF方法的基础上,引入了2?统计量调节因子和类内分布熵因子,弥补了TFIDF方法的缺陷,提高了特征项权重计算的准确性。结合KNN方法进行实验,实验结果表明,所提方法用于权重计算后提高了分类器性能,同时证明了该方法具有较好的稳定性。(3)针对KNN方法训练样本增多而分类速度变慢的问题,本文提出了一种基于K-Medoids和隶属度的改进型KNN文本分类方法,在传统KNN算法的基础上,采用改进K-Medoids聚类算法删掉对KNN分类贡献小的训练样本,减少了分类过程中相似度的计算量,并引入了隶属度,实现了有差别地处理与测试文本最近邻的K个文本。实验结果表明,在保证较高文本分类精度的前提下,所提方法提高了KNN方法的分类效率,同时验证了综合采用本文所提三种方法的有效性。

其他文献

氮化物自旋电子材料的制备与性能研究

氮化镓(GaN)是一种宽禁带的直接带隙半导体材料，因其具有优越的光电特性，所以在蓝紫光发光器件、紫外探测器件等方面具有广阔的应用前景。自从Dietl等人通过理论研究，预言了GaN

学位

氮化镓自旋电子材料半导体材料离子掺杂化学气相沉积

拟南芥ERG基因的克隆及细胞定位的初步观察

充足的证据表明G蛋白作为细胞重要的分子开关参与细胞的增殖调控以及部分代谢调控过程。近来在大肠杆菌中新发现的Era蛋白（E．coli ras-like protein）是一类新的GTP结合蛋白，研究

学位

拟南芥分子开关ERG基因克隆细胞定位ERG蛋白细胞周期线粒体

具有三个公共值集的亚纯函数

In this paper we study the problem of meromorphic functions sharing three sets and obtain some theorems which are the extension and complement of some known rel

期刊

meromorphic functionshared valueshared set

面向家庭环境的健康保健数据库系统的研究

健康已越来越多的成为现代人所关注的焦点，传统的健康保健方法制约着家人必须要到医院去做相应的检查，需要排队、挂号等，在为健康付出时也付出了宝贵的时间，而且效率低下、效果不

学位

数字家庭健康保健数据库灰色系统马尔科夫模型智能体健康检查

AlGaN/GaN异质结构中的零场自旋劈裂研究

为了研发自旋电子学器件，人们对半导体中电子的自旋越来越关注，操作和控制半导体异质结和量子阱中电子的自旋引起了广泛的研究兴趣，导致了半导体自旋电子学器件的迅猛发展。如果

学位

AlGaN/GaN异质结构自旋电子学器件空间分布带边能量振荡周期

DNA聚合酶δ催化亚基转录活性调控及调节亚基p50功能的研究

研究目的：DNA聚合酶6是真核细胞催化DNA合成的主要酶，与细胞周期密切相关。DNA聚合酶6的催化亚基p125的编码基因为POLD1，该基因表达受到细胞周期调控，但对于DNA聚合酶6接受细胞周

学位

DNA聚合酶6基因启动子细胞周期损伤修复

硝酸根调控拟南芥叶片衰老及逆境适应的机理研究

逆境诱导植物的衰老过程，同时诱导硝酸根的再分配。前期研究表明逆境条件下的硝酸根再分配由NRT1.5和NRT1.8介导，而且调控植物对逆境的耐受。但是植物衰老和硝酸根再分配之间存

学位

植物叶片硝酸根NRT1.5基因衰老过程逆境适应调控机理

水声传感器网络物理层传输特征及MAC协议研究

水声传感器网络作为国际前沿课题，在海洋环境监测、资源探测、科学研究、灾难预防、辅助导航、战术警戒等领域具有重要应用价值。本文以“十一五”国家高技术研究发展计划项目

学位

分簇算法水声传感器网络物理层传输特征

论述电力系统变电站的运行管理

本文通过对荣华二采区10

期刊

拟南芥氰酸盐裂解酶(AtCYN)生化分析以及功能研究

氰酸盐是一种毒性物质，它的毒性表现有两个方面：一是通过对蛋白质等生物活性分子的氨基甲酰化，使各种生物分子丧失正常的生理功能；二是影响体内的精氨酸合成通路，干扰氨基酸的合成

学位

氰酸盐裂解酶同源十聚体氰酸盐胁迫拟南芥生化分析

基于CHI和KNN的文本特征选择与分类算法的研究

其他学术论文