基于词条频率的特征选择算法研究

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:piaoye2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是解决文本分类中特征空间高维性的难题的有效方法.在文本分类中经常用到的自动特征选择方法都将词条在文档中出现一次和出现多次的情况同等对待,因而忽略了词条频率(TF)信息.本文提出了加入TF信息的改进的特征选择方法,有效的利用了TF信息,从而提高了文本分类的精确度.试验结果表明,改进的特征选择方法的试验效果比原始的特征选择方法的效果有明显的提高.
其他文献
语料库是计算语言学的基础资源,目前国内外许多单位都在积极地进行语言资源的加工建设,在汉语语料库建设方面也取得了一些重要研究成果.例如,1998年人民日报标注语料库、国家
会议
王充是东汉初期杰出的唯物论思想家,他站在法家的立场上,对孔孟之道进行了猛烈批判,对儒家反动的自然观也展开了针锋相对的斗争。认真研究一下王充的唯物论自然观及其对唯心
本文介绍了电子信息产业工业炉窑的特点、能源消耗情况,然后指出了电子工业炉窑存在的主要问题,最后讨论了加快发展节能型炉窑,是经济社会发展的需要。
本文主要探讨基于一系列国际标准的西双版纳傣文"贝叶经"资源库的关键技术,如基于ISO/IEC10646的新、老傣文信息处理技术、基于Dublin Core和XML的电子编目、置标和发布技术
目的 系统评价去甲文拉法辛治疗重性抑郁障碍的疗效和安全性.方法 计算机检索Medline、Embase、CENTRAL、PsycNET、中国生物医学文献数据库、中国知网、维普、万方等数据库,
富氧燃烧不仅能节约燃料,提高产品质量和品位,减少窑炉侵蚀、延长窑炉寿命,而且能够大大降低粉尘和NOx的排放,减少环境污染.本文对其在玻璃窑炉上的应用进行了简单的介绍和探
从中国证券市场诞生以来,违规行为就层出不穷。有人甚至认为:中国证券业的发展史,就是一部违规史!警钟一次又一次响起,令人震耳欲聋,宣告中国证券立法已刻不容缓!如狼似虎的
匹杉醇为一新型蒽环类药物,已由欧盟批准单独用于治疗成人复发难治侵袭性B细胞非霍奇金淋巴瘤.Ⅲ期临床试验结果提示,作为复发难治侵袭性非霍奇金淋巴瘤的单一替换疗法,匹杉
本文首先介绍了朴素贝叶斯方法的基本原理,分析了决定基于贝叶斯的中文垃圾邮件过滤器的性能的几个因素,然后比较了几种基于该方法的过滤器,最后总结了制约中文垃圾邮件过滤
Blog(博客)作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,也使得Blog空间里的信息量成倍增长.利用话题检测技术将Blog文本信息按照所表达的话题进行归类