基于相关性及语义的n-grams特征加权算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:z11272037
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-grams内单词与类别的相关性及n-grams与测试集的语义近似度加权.搜狗中文新闻语料库和网易文本分类语料库上的实验表明,文中算法能筛选高类别相关且低冗余的n-grams特征,在量化测试集时减少稀疏数据的产生.
其他文献
<正> 例一:孔×,男, 48岁,工人。1976年8 月16日初诊。患者于两个月前突然尿量增多, 夜间尤甚,继则出现烦渴多饮,口咽干燥,逐日加重。经本地×医院及西安市×医院诊为“原发
目的观察重复经颅磁刺激合并帕罗西汀治疗难治性强迫症的临床效果。方法从锦州市康宁医院精神科选出治疗难治性强迫症患者50例,按照入院的先后顺序随机将患者分成两组,组一25
国都首都,是一个国家的政治中心,中央政府的所在地.孙中山先生对于未来中国的首都设于何地,曾有过一个比较明确的设想.孙中山认为,关于建都,我认为以"一都四京"为妥.以武汉为
一、问题的提出自信心是一种积极、有效地表达自我价值、自我尊重、自我理解的一种意识特征和心理状态,它是每个人内在"自我"的核心部分,是人自己所具有的、保证完成某项活动
尤文肉瘤是骨的原发性恶性肿瘤,由紧密排列一致的小圆形细胞组成,细胞内含丰富的糖原。本病占原发骨肿瘤的1.27%,占恶性肿瘤的4.58%。男女比例1.7∶1,此瘤好发于少年,多为11
对福州城市居民生活用水量进行调查与分析.结果表明,随着水资源可持续发展观念和节约用水意识的增强,节水型卫生器具、节水措施的采用以及水价的改革,居民生活用水量近年来已呈稳
随着我国"走出去"战略的实施,越来越多的中国企业承揽了大量的海外工程项目,随之会计核算出现了新的命题。作者主要对海外工程施工项目会计核算过程中的账套设置、记账本位币的
基于新工科建设指南,提出一种三阶段探究式教学模式,即学生首先进行在线课堂学习,在学习过程中反馈学习的难点和疑问,然后教师分析学生的反馈进行针对性的大学课堂教学,最后
乔布斯的一生就如同莎士比亚的戏剧,你们都误解他了。史蒂夫去世后,关于他的报道铺天盖地,有文章、图书、电影,还有电视节目,大部分只是在重复关于史蒂夫的那些传说和成见。
目的探讨尿N-乙酰-β-D-氨基葡萄糖苷酶(N-acecyl-β-D-glucosaminidase,NAG)/尿肌酐(creatinine,Cr)的在老年重症肺炎急性肾损伤患者中的诊断意义。方法回顾分析19例老年重症肺