【摘 要】
:
在TF-IDF算法基础上,提出新的基于词频统计的关键词提取方法。利用段落标注技术,对处于不同位置的词语给予不同的位置权重,对分词结果中词频较高的同词性词语进行词语相似度
【基金项目】
:
国家自然科学基金资助项目(编号:61003311),安徽省高校省级自然科学基金资助项目(编号:KJ2011A040)
论文部分内容阅读
在TF-IDF算法基础上,提出新的基于词频统计的关键词提取方法。利用段落标注技术,对处于不同位置的词语给予不同的位置权重,对分词结果中词频较高的同词性词语进行词语相似度计算,合并相似度较高的词语,通过词语逆频率TF-IWF算法,按权值排序得到关键词。这种改进算法解决了传统中文关键词提取方法中对相似度高的词的不重视而导致关键词提取精度不高的问题。实验结果表明,改进的算法结果在准确率和召回率上较原有的TF-IDF算法上都得到较好的提升,使得提取的关键词集合能较好体现文本内容。
其他文献
根灌技术是从灌溉土壤到灌溉根系的先进灌溉方法,总结该技术的主要技术要点,分析其在大棚蔬菜上的应用,以提高蔬菜种植的经济效益。降低生产成本。
推理是人工智能领域研究的重点。推理过程一般是非确定的,会产生许多冗余的推理分支。本文针对专家系统中常用的产生式规则,提出了一种确定性构造推理链的方法。方法运用逻辑
摘要 对景谷县近年来甘蔗产业发展现状进行综合分析,找出甘蔗种植面积逐年减少的主要原因,提出了巩固甘蔗产业稳定面积、保证蔗农增收、促进甘蔗产业发展的合理对策。 关健词 甘蔗产业;种植面积;现状;对策;云南景谷 中图分类号 S566.1 文献标识码 A 文章编号 1007-5739(2015)16-0330-01 景谷县位于云南西南部,全县土地资源丰富,年平均气温20.3 ℃,全年积温7 360
<正> 心跳停止时,无论是未实施心肺复苏,即心肌普遍完全性缺血(无血流);还是实施心肺复苏,即不全性广泛心肌缺血(低灌流),心肌急性改变包含有呼吸性和代谢性两种因素。本文重
<正> 期刊的“在版标引”是指期刊编辑部在刊出的每篇文献的题目下或摘要后,都标有该文献的检索词——关键词或主题词。期刊“在版标引”的显著特色就在于它使文献的标引工作
<正> 中国化学文献数据库(Chinese Chemioal Bibliographic Database,简称CCBD)光盘于今年四月面世。近年来,随着激光存储技术的发展,只读光盘数据库如雨后春笋般地大量出现,
以"桑树"与"育苗"为主题,对CNKI(中国知识资源总库)进行检索,从文献发表的趋势、文献学科类别划分、文献发表的地域、文献的重要性、研究桑树育苗的主要人员和文献发表主要期刊等6
<正> 交感神经节后纤维在血管外膜形成神经丛,从平滑肌外侧调节血管平滑肌收缩、舒张。在血管内侧的血管内皮细胞产生各种内因性物质,其代谢或活性化影响血管平滑肌收缩、舒
基于可调谐半导体激光光谱吸收检测技术而设计的矿用激光光谱多参数灾害气体分析检测装置具有高精度、高灵敏度、宽量程、低误差等特点,可以克服水蒸气、粉尘、背景气体等因
毕业设计是本科教学中的最后一个教学环节,也是培养学生创新能力、工程设计能力、技术应用能力的一个重要阶段,毕业设计质量的高低是高校教学质量的直接反映。文中总结了当前高