文本分类中一种基于选择的二次特征降维方法

来源 :情报学报 | 被引量 : 0次 | 上传用户:ptcptsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。
其他文献
随着仪表控制技术的快速发展,尤其20世纪70年代中期,大规模集成电路取得了突破性发展,使自动化仪表工业发生了巨大的变化。现代意义上的DCS分散式控制系统也应运而生,越来越
文章介绍了珠海市的生态珠海和社会主义新农村建设的“十一五”规划要求,并以白藤湖无公害蔬菜标准化国家级示范区为例,阐述了农业标准化及其示范项目在社会主义和谐社会和社会
北方的9月,秋意初袭,天气转凉。“煤改气”项目已经进入集中安装的阶段,燃气壁挂炉迎来销售旺季。2018年9月13日,当《电器》记者跟随中国厨电行业考察团来到中山市羽顺热能技术设
A Ni-rich TiNi alloy was processed by Equal Channel Angular Extrusion (ECAE) at 500℃. After four passes ECAE treatment, microstructure of the alloy was refined
研究得出了Sn-3.5Ag-2Bi-1.5In无铅焊料压入蠕变的应力指数n=3.246,蠕变激活能Q=59.74kJ/mol和材料的结构常数A=0.307,从而导出了Sn-3.5Ag-2Bi-1.5In无铅焊料的压入蠕变的稳态蠕变速率
研究了电场处理后的长期时效GH4199合金在不同应变速率下的拉伸变形行为。结果表明,随应变速率增加合金屈服强度升高,应变速率低于3.3×10^0s^-1时,应变速率敏感指数m值较低
介绍用户生成内容(UGC)的源流发展,并在此基础上引入信息生产过程理论(IPP)的视角,介绍其基本概念及其数理表达形式,并从理论角度和模拟实证角度探讨IPP应用于UGC的可行性。通过8个
距离富士康正式收购夏普已过去两年,在两年间夏普取得了令人瞠目的成绩也面临了诸多发展模式的质疑.此前经过一番调整的夏普,会在2019年带给业界怎样的变革?2018年10月26日,夏
<正>健全城市土地管理体制,规范城市土地交易,是关系我国房地产业健康有序发展的重要理论问题和实践问题。为了继续推进和深化土地使用制度改革,更好地贯彻《中华人民共和国
会议
10月11日,由中国建筑节能协会暖通空调专业委员会、地源热泵专业委员会以及专业传媒机构i传媒共同主办的2018中国暖通空调鎏商大会暨舒适智能集成商菁英大会(HCSC)在泰安召开.