论文部分内容阅读
作为科研人员,要追踪所在学科的最新发展动向,就要追踪该领域的最新会议文献、最新发表的论文及专利文献等,分析这些文献中发表的新观点,用到的新技术,得到最新的研究热点。但是,文献资源电子化的增长速度日新月异,某一领域的研究人员要从浩瀚的文献资源中发现自己领域的科学前沿,非常困难。而新兴技术的出现往往是几个学科相互交叉的结果,而从一个学科去发现与之相关的交叉学科中出现的新技术和新主题,又增加了发现新兴主题的难度。 新兴主题是新的、已经引起人们关注但还没有成为热点的主题。如果能够尽早地发现新兴主题,并对其发展趋势进行预测,对于研究人员尽早地抢占研究的制高点是至关重要的。利用海量文献中的文本挖掘技术是帮助科研人员快速发现新兴主题的途径之一。主题模型是一种能够对文档集建模,抽取其中隐含的语义主题的算法,具有对文本更为丰富的语义表达的优点。本研究试图探索采用LDA抽取文献主题,并设计基于新颖度指标、发文量指标、被引量指标等指标的新兴主题探测指标,设计基于LDA和上述新兴主题探测指标开展新兴主题探测的方法,开发支持新兴主题探测的软件,开展基于上述方法和指标的新兴主题探测实验,并对探测出的新兴主题的发展趋势进行预测。 研究的创新点在于,出了一套结合主题新颖度、发文量、被引量的新兴主题探测指标;设计了基于LDA抽取文献主题,并利用新兴主题探测指标探测新兴主题的方法;开发了支持上述方法的新兴主题探测实验系统;探索了新兴主题发展趋势的预测方法。 本文的研究结论如下: 本文提出的新兴主题探测方法,充分发挥了LDA模型以短语形式抽取主题的能力,该方法比以往基于关键词词频的方法具有更好的语义表达能力和消岐能力。 本文所提出的新兴主题探测指标,能够刻画出领域中主题在进入成熟阶段以前的特征,并能较早地发现新兴主题。 本研究开发出的新兴主题探测实验系统可以较方便地探测某领域的新兴主题。