【摘 要】
:
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料
【机 构】
:
昆明理工大学信息工程与自动化学院,云南省计算机应用重点实验室
【基金项目】
:
国家自然科学基金项目(81360230)
论文部分内容阅读
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。
其他文献
苯丙素类化合物的合成过程中,苯丙氨酸解氨酶(PAL)是植物苯丙烷类合成的第1个关键酶。为了解杜仲苯丙氨酸解氨酶基因序列信息,为杜仲苯丙素类高效合成的分子调控提供科学依据
<正>陶行知先生力倡"六大解放",即解放学生的大脑、双手、眼睛、嘴巴、时间、空间。目前,作文教学存在着几种弊端。一是教师在上作文指导课时无从下手,无话可说,不知让学生从
为探究五味子米酒的最佳制作工艺条件。在单因素基础上进行正交试验,考察五味子添加量、酒曲添加量、发酵时间和发酵温度这4个因素对酿造五味子米酒工艺的影响。试验结果显示
针对虚拟物流组织的实际运作情况,给出了4种虚拟物流组织的组织结构模式,并重点采用模型化设计方法设计了虚拟物流组织的综合组织结构模式,详细分析了虚拟物流组织运行的3个
农民专业合作社成员利益实现是合作社发展基础及关键问题。农民专业合作社发展过程中,核心成员与普通成员利益实现存在差异。研究运用二元Logistic模型,以农民专业合作社成员
<正>综观目前小学中高年级习作教学的目标定位问题,由于许多教师忽视对《课程标准》的审视与解读,缺少对分年段习作教学目标之间联系与区别的研究,制订出的目标存在着比较多
<正> 太行山区封山育林成功先例很多,这里主要介绍辉县几个地方的封山育林,以果带林,加速荒山绿化的成功经验。河南省总土地面积有16.7万平方公里,山区面积占全省总面积的44.
挥发性有机物(VOCs)是雾霾天气中PM2.5形成的重要前提物之一,对大气环境质量和人体健康都会造成影响,控制VOCs的排放具有重要意义。但由于VOCs种类复杂,挥发性高,这给排放源V
所谓随书光盘是指图书附带的光盘。随着数字化时代的到来,图书馆随书光盘越来越多。随书光盘最初以计算机科学类图书为主,而后扩展到其他工业技术类图书,进而发展到社会科学
<正>碳纤维在国际上被誉为"黑色黄金",它不仅具有碳材料固有的本征特性,又兼具纺织纤维的柔软性。碳纤维从原丝到成品需要经过预氧化、高温碳化、石墨化、表面处理等诸多工艺