基于LDA与文献计量指标相结合的新兴主题探测

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:mars1998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为科研人员,要追踪所在学科的最新发展动向,就要追踪该领域的最新会议文献、最新发表的论文及专利文献等,分析这些文献中发表的新观点,用到的新技术,得到最新的研究热点。但是,文献资源电子化的增长速度日新月异,某一领域的研究人员要从浩瀚的文献资源中发现自己领域的科学前沿,非常困难。而新兴技术的出现往往是几个学科相互交叉的结果,而从一个学科去发现与之相关的交叉学科中出现的新技术和新主题,又增加了发现新兴主题的难度。  新兴主题是新的、已经引起人们关注但还没有成为热点的主题。如果能够尽早地发现新兴主题,并对其发展趋势进行预测,对于研究人员尽早地抢占研究的制高点是至关重要的。利用海量文献中的文本挖掘技术是帮助科研人员快速发现新兴主题的途径之一。主题模型是一种能够对文档集建模,抽取其中隐含的语义主题的算法,具有对文本更为丰富的语义表达的优点。本研究试图探索采用LDA抽取文献主题,并设计基于新颖度指标、发文量指标、被引量指标等指标的新兴主题探测指标,设计基于LDA和上述新兴主题探测指标开展新兴主题探测的方法,开发支持新兴主题探测的软件,开展基于上述方法和指标的新兴主题探测实验,并对探测出的新兴主题的发展趋势进行预测。  研究的创新点在于,出了一套结合主题新颖度、发文量、被引量的新兴主题探测指标;设计了基于LDA抽取文献主题,并利用新兴主题探测指标探测新兴主题的方法;开发了支持上述方法的新兴主题探测实验系统;探索了新兴主题发展趋势的预测方法。  本文的研究结论如下:  本文提出的新兴主题探测方法,充分发挥了LDA模型以短语形式抽取主题的能力,该方法比以往基于关键词词频的方法具有更好的语义表达能力和消岐能力。  本文所提出的新兴主题探测指标,能够刻画出领域中主题在进入成熟阶段以前的特征,并能较早地发现新兴主题。  本研究开发出的新兴主题探测实验系统可以较方便地探测某领域的新兴主题。
其他文献
传统的教学理论比较注重认知方面的研究,片面地理解获取知识的手段是灌输系统化,没有将知识的获取放在学习者身上,忽视了学习者心理发展的整体作用,夸大了认知的单一作用,从本质上
彼得·圣吉在《第五项修炼--学习型组织艺术与实务》中提出创建学习型组织五项修炼,告诉我们一个人怎么从一般的人转变成学习创新型人,即“现代社会人”。这是坚持人本管理的
园本研修是以教师在实施新课程中所面临的实际问题为研究对象,以幼儿园为主阵地,以教师为学习和研究的主体,以幼儿园、教师和幼儿的发展为目标的实践性、研究性的进修活动。随着教育理念和教学实践的不断发展,我们越来越清楚地看到:建设学习共同体,促进全体教师专业成长,是保障教育公平、保障幼儿发展,形成幼儿园核心竞争力的重要问题,这也是我园开展园本研修的主要形式。  一、引领促成教师学习共同体  成立合作小组,
电子图书是数字资源的重要组成部分,数字资源本身的脆弱性等特征严重威胁电子图书稳定、可靠的长久获取和使用。学术图书馆购买的电子图书仅拥有使用权,一旦采购合同终止或发生
目前,我国已拥有科技期刊数量近5000种,成为科技期刊大国,此外,我国科技期刊在学术质量建设、出版能力建设、国际化水平、经营方式创新、数字化发展等方面都有较大增强,并不断涌现
区域技术创新能力已成为区域科技和经济发展水平的集中体现。对区域技术创新能力进行科学评价,有助于发现区域技术创新存在的问题,可及时对这些问题采取相应的应对策略,提高区域
随着知识经济时代的到来,情报作为创新活动的重要因素,在各领域、各行业、各产业中发挥着越来越重要的作用。我国的情报事业经历了50多年的发展,为各级地方政府、组织、科研机构
近年来,以“中国光学期刊网”、“材料期刊网”等为代表的中国专业数字化期刊群正在引起学术界和期刊界的广泛关注。这种以学科内期刊集群形态运作的学术期刊群体,实现了学科出
在收集WOS数据库中近10年国际电子政务研究领域相关文献的基础上,借助CiteSpaceⅡ,首先对研究文献的时空分布与核心作者分布等进行分析,然后通过对研究热点的发现以及相应研
随着计算机技术的发展,数字文献资源成为科研人员开展研究的基础。当用户阅读到感兴趣的文献内容时,往往面临着查找相似文献或其它相关信息的问题,然而网络信息资源呈现爆炸式增