【摘 要】
:
特征降维与分类算法的性能是文本自动分类的两个主要问题。KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实
【基金项目】
:
基金项目:国家自然科学基金资助项目(编号:70571087).
论文部分内容阅读
特征降维与分类算法的性能是文本自动分类的两个主要问题。KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象。本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类,使处于样本点分布较密集区域的样本点之间的距离增大。随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果。
其他文献
湿法炼锌过程会造成大量的冶炼废弃高硫渣,这些渣中含有大量的亲汞元素硫。基于以废治废的理念,采用高硫渣对烟气中的汞进行吸附,通过XRD等手段对制备材料的性能进行表征,分
随着新能源汽车的迅猛发展,磷酸铁锂动力电池退役后将产生大量的废旧电池,若不及时处理将会污染环境和浪费金属资源。介绍了近几年来废旧磷酸铁锂电池正极材料回收利用技术进
2011年10月22—23日,全国情报学博士生学术论坛在北京大学顺利召开。国家工业和信息化部杨学山副部长,北京大学党委常务副书记、副校长张彦教授,研究生院常务副院长高岱教授以及
我站自2001年1~12月对产后45~58天妇女放置宫内节育器(IUD),经过1年跟踪随访对照,分析如下.
从顾客对质量信息的感知能力差异出发,本文认为质量信息的传递会导致顾客感知价值呈现波动性,因此引入物理学中“焙”的概念,将因质量信息引起顾客感知价值的波动定义为“质量信
本文从学科理论、教育、职业认同三方面对世界范围的情报学困境进行了分析,指出情报学陷入困境的根源在于三方面:强势学科的加入竞争,信息技术的发展和影响,情报学的内在局限性。
中央经济工作会议确定了2009年经济社会发展的指导方针和总体要求,简单明了地说就是保增长、扩内需、调结构,表明了政府调整经济结构的决心。文章分析了金融结构调整对产业结构
进入新时代,我国社会主要矛盾的转化、我国经济发展阶段的转向以及建设现代化经济体系的战略目标,成为全面推进新一轮财税体制改革的新动力。十九大和中央经济工作会议对2018
2018年11月14-16日,国际财务总裁协会联合会(International Association of Financial Executives Institutes,以下简称“国际财联”)第48届世界大会在越南胡志明市举行,中国总