论文部分内容阅读
研究前沿(Research Front)是科学研究中最新、最具前瞻性和引领性的研究方向,其作为科技创新的突破口和新生长点,备受关注,尤其是在《国家创新驱动发展战略纲要》全面实施以来。面对科技创新发展新趋势,研究如何及早、准确识别研究前沿,预测未来方向和重点,对更好服务国家科技宏观决策、合理配置科技资源、帮助科研工作者及时把握科学研究动态,均具有重要意义。当前,研究前沿识别主要有基于引用、基于内容以及二者结合的方法体系。相对而言,以引用分析为基础辅以内容分析的混合识别方法是现阶段研究前沿识别研究的热点,较常见的是将共被引分析、引文耦合与文本内容分析相结合,但结合主要聚焦在文献聚类与类簇描述层面,在聚类基础即信息域上并没有扩展,在内容语义分析方面还较浅表,识别出的研究前沿的“前瞻价值”和“学术准确性”常被质疑。
鉴于此,为了更吻合科学家专业视野中的“研究前沿”,本文尝试从识别信息域(聚类基础)和识别语义深度两个层面对引用-内容相结合的研究前沿识别方法进行优化,基于多种学术引用关系研究构建更新颖、更高学术关联、更好覆盖度的研究前沿域,利用LDA主题模型从文本内容语义层面直接进行研究前沿识别,全面拓展深化引用-内容结合方法的信息域与语义深度,切实提高研究前沿识别的新颖性与准确性。
本文综合采用文献调研、归纳分析、文献计量、文本挖掘、实证、专家咨询与评价、对比研究等方法,重点围绕科学研究前沿识别相关理论方法、共被引耦合-LDA法的设计、分析实验及效果评价开展研究。通过理论与实证研究,主要研究结果如下:
(1)理论研究方面:基于对研究前沿概念发展演化的深入分析,归纳界定了其内涵特征:研究前沿是一组能够引领学科发展并在领域内具有较高活跃度、较高学术关注度的最新研究主题,活跃性、新颖性和关注度是其最基本的特征表现。
(2)方法研究方面:从研究前沿信息域构建、基于PhraseLDA的主题抽取、基于“引用-内容”的研究前沿识别三方面展开。首先,研究提出了从学术引用维度、利用多种学术引用关系构建具有更好识别价值的研究前沿信息域的原则、思路和过程,籍此界定全新的“研究前沿信息域”;其次,研究设计了采用PhraseLDA模型进行研究主题抽取的具体方法和流程,包括抽取前的语料库构建、抽取过程中的参数设置等关键环节;第三,基于研究前沿“活跃性”、“新颖性”和“关注度”,设计构建了综合文献主题与引用特征的复合研究前沿识别指标——研究前沿量值。
(3)试验研究方面:选取免疫学领域对新提出的研究前沿识别方法进行分析试验,依据“研究前沿量值”并结合专家评价,最终识别出26个免疫学研究前沿主题,研究前沿主题识别准确率达86.7%;研究前沿主题的平均发表年均值为2017.6,新颖度比经典的共被引分析法(2016.3)有较大提高。
本文的主要结论与创新:一是提出可实现引用-内容深度结合的研究前沿识别方法——“共被引耦合-LDA法”,有效拓展深化了混合方法的聚类基础和语义深度,不仅提高了研究前沿识别的前瞻性,同时提高了内容语义识别的准确性,识别结果直接以主题短语形式呈现,易于理解:二是设计构建了结合文献“引用-内容”特征的复合型研究前沿识别指标——研究前沿量值。该指标在主题模型框架下量化研究前沿的基本特征,包括“主题活跃度”、“主题新颖度”和“主题影响度”三个分项指标。相对单一指标而言,研究前沿量值结合各分项指标,不仅能综合反映研究主题的前沿程度,且能体现主题在活跃性、新颖性和关注度方面的具体表现,有利于提高研究前沿识别的准确性。
本文提出的“共被引耦合-LDA法”,将研究前沿识别过程与具体呈现过程结合起来,能够直接高效处理大规模学术语料,为大数据时代科学识别研究前沿提供了新思路和方法借鉴,不仅在方法论上优化了相关情报分析方法,而且在实践上提供了一个较为准确地把握科技前沿动态的新视角。
鉴于此,为了更吻合科学家专业视野中的“研究前沿”,本文尝试从识别信息域(聚类基础)和识别语义深度两个层面对引用-内容相结合的研究前沿识别方法进行优化,基于多种学术引用关系研究构建更新颖、更高学术关联、更好覆盖度的研究前沿域,利用LDA主题模型从文本内容语义层面直接进行研究前沿识别,全面拓展深化引用-内容结合方法的信息域与语义深度,切实提高研究前沿识别的新颖性与准确性。
本文综合采用文献调研、归纳分析、文献计量、文本挖掘、实证、专家咨询与评价、对比研究等方法,重点围绕科学研究前沿识别相关理论方法、共被引耦合-LDA法的设计、分析实验及效果评价开展研究。通过理论与实证研究,主要研究结果如下:
(1)理论研究方面:基于对研究前沿概念发展演化的深入分析,归纳界定了其内涵特征:研究前沿是一组能够引领学科发展并在领域内具有较高活跃度、较高学术关注度的最新研究主题,活跃性、新颖性和关注度是其最基本的特征表现。
(2)方法研究方面:从研究前沿信息域构建、基于PhraseLDA的主题抽取、基于“引用-内容”的研究前沿识别三方面展开。首先,研究提出了从学术引用维度、利用多种学术引用关系构建具有更好识别价值的研究前沿信息域的原则、思路和过程,籍此界定全新的“研究前沿信息域”;其次,研究设计了采用PhraseLDA模型进行研究主题抽取的具体方法和流程,包括抽取前的语料库构建、抽取过程中的参数设置等关键环节;第三,基于研究前沿“活跃性”、“新颖性”和“关注度”,设计构建了综合文献主题与引用特征的复合研究前沿识别指标——研究前沿量值。
(3)试验研究方面:选取免疫学领域对新提出的研究前沿识别方法进行分析试验,依据“研究前沿量值”并结合专家评价,最终识别出26个免疫学研究前沿主题,研究前沿主题识别准确率达86.7%;研究前沿主题的平均发表年均值为2017.6,新颖度比经典的共被引分析法(2016.3)有较大提高。
本文的主要结论与创新:一是提出可实现引用-内容深度结合的研究前沿识别方法——“共被引耦合-LDA法”,有效拓展深化了混合方法的聚类基础和语义深度,不仅提高了研究前沿识别的前瞻性,同时提高了内容语义识别的准确性,识别结果直接以主题短语形式呈现,易于理解:二是设计构建了结合文献“引用-内容”特征的复合型研究前沿识别指标——研究前沿量值。该指标在主题模型框架下量化研究前沿的基本特征,包括“主题活跃度”、“主题新颖度”和“主题影响度”三个分项指标。相对单一指标而言,研究前沿量值结合各分项指标,不仅能综合反映研究主题的前沿程度,且能体现主题在活跃性、新颖性和关注度方面的具体表现,有利于提高研究前沿识别的准确性。
本文提出的“共被引耦合-LDA法”,将研究前沿识别过程与具体呈现过程结合起来,能够直接高效处理大规模学术语料,为大数据时代科学识别研究前沿提供了新思路和方法借鉴,不仅在方法论上优化了相关情报分析方法,而且在实践上提供了一个较为准确地把握科技前沿动态的新视角。