基于互信息的文本特征选择方法研究与改进

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:getu0217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对互信息(MI)文本特征选择方法与信息增益、卡方统计方法的实验研究比较,发现了影响MI方法性能的主要因素是特征选择过程中的随机性,通过加入扰动因子的方法对MI方法进行了改进,消除了随机性的影响,实验表明,改进后的MI方法与信息增益、卡方统计方法比较,具有较明显的优势。
其他文献
目的观察整体护理对高血压患者心理护理质量的效果。方法选取2017年1月至2018年6月本院接受治疗的高血压患者作为研究对象,采用随机抽样法抽选出108例患者,将其按照入院时间
基于模糊区域特征的图像检索算法和关联反馈算法是当前图像检索领域的研究热点,由于区域模糊相似度的复杂性,绝大多数关联反馈算法不能应用到基于模糊区域特征的图像检索方法
聚类分析是一种重要的数据挖掘方法。K—means聚类算法在数据挖掘领域具有非常重要的应用价值。针对K—means需要人工设定聚类个数并且易陷入局部极优的缺陷,提出了一种基于最
患者,男性,49岁。因双下肢无力4年余,加重3个月于2004年7月30日入院。患者4年前无诱因双下肢无力,并有足趾麻木感,于某医院诊断为末梢神经炎,给予营养神经治疗,具体用药有能量合剂、
目的:探讨瑞舒伐他汀介导血清肌钙蛋白( cTnT)、同型半胱氨酸( hcy)、高敏C反应蛋白( hs-CRP)水平治疗急性心肌梗死的最佳剂量。方法将200例急性心肌梗死患者随机分为试验组和对照组
本文主要分析沪深两市主板、中小板、创业板与科创板上市公司在无形资产项下披露的知识产权(专利)资产信息。专利是企业的重要创新成果,近九成上市公司都拥有不同类型的专利,
新型冠状病毒肺炎(COVID-19)与2003年暴发的严重急性呼吸综合征(SARS)二者在致病原因、流行性、传染性、致病性等方面具有一定的相似性,均属中医的"疫病"范畴。中医药作为我
目的观察依那普利治疗糖尿病肾病的疗效。方法将134例糖尿病肾病患者随机分为观察组和对照组,每组各67例。对照组采用常规治疗方法;观察组在对照组基础上联合应用依那普利治
目的:探讨不同浓度的罗哌卡因在无痛分娩时对产妇泌乳功能及新生儿的影响差异。方法收集医院2013年1月-2014年2月妊娠要求无痛分娩的孕妇106例,随机分为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ5组,前
患者,男性,78岁。因头晕、双下肢水肿1周于2005年7月22日入院。既往有高血压病史20年、冠心病史5年。血压170/90mmHg。心肺检查正常。脐上偏右可闻及收缩期血管杂音。双下肢轻度