【摘 要】
:
在中文短文本情感分析的特征提取中,词频逆文本频率指数算法TF-IDF存在特征词分布计算片面性的缺陷,信息增益算法IG不能很好地提取短文本特征,为此,提出了一种改进特征选择算
【机 构】
:
杭州电子科技大学认知与智能计算研究所
【基金项目】
:
教育部人文社科规划青年基金资助项目(12YJCZH201),教育部人文社会科学研究规划基金资助项目(18YJA740016).
论文部分内容阅读
在中文短文本情感分析的特征提取中,词频逆文本频率指数算法TF-IDF存在特征词分布计算片面性的缺陷,信息增益算法IG不能很好地提取短文本特征,为此,提出了一种改进特征选择算法ITFIDF-IG。根据短文本语料特点提高更具分类效果的特征词权重,降低了无关词的干扰,并考虑特征词在分布上体现的分类效果,有效提取出更具分类贡献度的特征词,更适应中文短文本的情感分析,取得较好的分类性能。
其他文献
在基因工程的教学实践过程中,从“基因工程”的学科特点出发,总结纯理科的教学模式在生物化工专业应用的局限,不断改进,逐渐转变为从课程内容规划,教材配置,课程讲授形式,实验与理论
在公路工程项目的建设过程当中,作为公路工程的施工质量是建设项目的核心问题.然而给公路桥涵工程造成质量问题的因素有很多并且也很复杂,对其质量的控制也存在很大的难度.对
目的进行原发性高血压病人血清同型半胱氨酸浓度变化的观察。方法选取该院于2010年5月—2011年5月收治的100例原发性高血压患者的临床资料,将其分为治疗组,另外再随机采取100