论文部分内容阅读
随着科学技术的不断进步,科技创新成果涌现,生产力迅猛发展,对于各行各业的影响日益加深,科学技术成为促进经济增长、推动产业革命的重要源泉,科技竞争力逐渐成为国家地位的保障。科技竞争力地位的不断提高对于情报学界的研究范式提出了新的要求,注重尽早发现、识别科技创新的前沿、热点,并评估其发展趋势,以支撑相关科技发展决策。
数据科学时代,科技情报分析与研究的问题往往更为综合,涉及要素更为多元,同时也更为细化,这导致单一数据源(论文或者专利等)不能满足前沿情报分析需求,需要不同类型的数据源相互补充。但是,目前的研究侧重于基金、论文和专利等科技文献数据简单融合分析的实践应用,基金、论文和专利等科技文献数据的研究主题之间的相互作用机制尚待探讨,即目前情报学界对于基金、论文和专利之间的科学知识传递、扩散演化规律研究不足,在一定程度上限制了基金、论文和专利等不同科技文献数据融合分析的科学性、有效性。
因此,本文将从“主题扩散演化”这一角度切入,以基金和论文数据为研究对象,面向研究前沿识别及其预测的情报分析任务场景,研究基金、论文这两种不同科技数据和文献之间研究主题的扩散演化滞后现象,探索归纳其基本机制与规律,并提出一般、通用的基于主题扩散演化滞后的研究前沿识别方法,以期提高研究前沿识别结果的“前瞻价值”。
本文首先梳理了研究前沿识别、主题演化和主题扩散等相关概念、理论与方法,并对本文研究的关键概念“研究前沿”、“主题扩散演化”进行了界定,从科学发展模式理论、生命周期理论和系统论等视角下分析了本文研究的理论基础、依据。目前研究中的主要不足包括:利用不同数据源(基金、论文等)识别研究前沿的研究大都简单将不同数据源的识别结果进行并列、叠加和对比分析,缺少对不同数据蕴含的研究主题内在关联的考虑,难以全面把握创新特征,影响了研究前沿识别的准确性和前瞻性。
针对目前上述研究的不足,本文提出了基金与论文关联的主题扩散演化路径识别及其可视化分析方法。首先梳理了科技规划、基金和论文等用来识别研究前沿的这些科技文献并分析了它们之间存在着直接或间接关联关系,指出基金、论文作为科学知识的主要载体,其中蕴含的研究主题、研究前沿等作为科学知识系统内容的核心要素,存在一定的显、隐性联系,并通过主题转移、扩散和演化等时序变化过程表现出来;重点设计了基金与论文关联的主题扩散演化路径识别及其可视化方法框架,包括数据获取及预处理、基于LDA模型的研究主题识别、基金与论文主题关联构建和主题扩散演化路径可视化等部分。以美国人工智能领域为例进行了实例验证,根据所设计的可视化方案绘制了可交互的基金与论文关联的主题扩散演化路径可视化图谱,验证了方法的可行性、有效性。
接下来重点提出了基金和论文主题扩散演化滞后效应测度方法。具体包括:首先,识别出不同时间窗口下基金和论文的研究主题并基于余弦相似度构建主题之间的关联关系,然后根据研究前沿判别指标构建战略坐标图进行研究前沿主题识别,在此基础上,从外部数量特征和内部主题特征两个层面分析基金和论文研究前沿主题的扩散演化滞后效应。研究发现,美国人工智能领域的基金和论文中蕴含的研究前沿主题存在一定关联关系,研究前沿主题的出现存在时间先后顺序(滞后性),对于美国人工智能领域,可以根据基金的研究前沿主题来预测未来2年论文的研究前沿主题,依据论文的研究前沿主题可以预测未来1年基金的研究前沿主题。
在上述研究结果基础上,本文提出基于主题扩散演化滞后的研究前沿识别及其预测分析方法。以美国纳米农业领域作为实证分析对象,验证了基于主题扩散演化滞后的研究前沿识别及其预测分析方法的有效性和可行性。在美国纳米农业领域基金和论文主题识别、前沿特征计算基础上,结合战略坐标图进行了研究前沿主题初始判别。接着进行美国纳米农业领域基金和论文主题扩散演化滞后效应测度,研究发现美国纳米农业领域中在一定程度上可以根据基金的研究主题来预测未来3年论文的研究主题,依据论文的研究主题可以预测未来2年基金的研究主题;根据滞后效应测度结果进行了滞后修正的研究前沿主题识别,其中,预测了未来3年论文中的研究前沿主题,得到纳米颗粒在农作物代谢过程中诱导应激机制、用于绿色和可持续环境及农业应用的纳米气泡技术、农作物吸收不同剂量下纳米材料的反应与机制、基于纳米颗粒-植物-叶相互作用的农药研发、纳米颗粒在农作物-土壤生态系统中的积累与转化机制、基于纳米技术的农作物基因组编辑与工程和纳米生物传感器在农业中的应用等七个研究前沿主题;最后,基于ARIMA模型和Word2vec模型从主题强度和主题内容两个维度对七大研究前沿主题进行深度预测解读分析。
论文的主要创新贡献为:
(1)提出了基金和论文关联的主题扩散演化路径识别及其可视化方法。为了有效地识别基金和论文之间的主题扩散演化路径并对其进行可视化揭示,提出了相应方法,相较于现有面向单一数据的主题演化分析方法,该方法能够有效识别基金和论文主题之间的扩散演化路径并实现演化路径的可视化,可在一定程度上提高主题扩散演化路径结果的直观性、可读性。
(2)定量、客观测度了基金和论文主题之间的扩散演化效应。创新性地提出了主题扩散演化滞后效应的测度方法,即从外部数量特征(自回归分布滞后模型)和内部主题特征(主题内容演化)两个层面分析基金和论文前沿主题的扩散演化滞后效应。
(3)提出了一套系统的基于主题扩散演化滞后的研究前沿识别及其预测的新方法。该方法将主题扩散演化、滞后现象和研究前沿识别有机融合,提出滞后修正的研究前沿识别方案,并利用ARIMA模型和Word2vec模型对研究前沿主题未来发展趋势进行分析与科学预测。与现有方法相比,一方面能够通过(基金或论文)主题扩散演化滞后效应结果来预测未来几年可能的(论文或基金)研究前沿主题,提高研究前沿主题识别结果的“前瞻价值”;另一方面可以通过对比研究前沿主题的可能发展方向来拓展研究前沿主题识别结果的分析粒度。
数据科学时代,科技情报分析与研究的问题往往更为综合,涉及要素更为多元,同时也更为细化,这导致单一数据源(论文或者专利等)不能满足前沿情报分析需求,需要不同类型的数据源相互补充。但是,目前的研究侧重于基金、论文和专利等科技文献数据简单融合分析的实践应用,基金、论文和专利等科技文献数据的研究主题之间的相互作用机制尚待探讨,即目前情报学界对于基金、论文和专利之间的科学知识传递、扩散演化规律研究不足,在一定程度上限制了基金、论文和专利等不同科技文献数据融合分析的科学性、有效性。
因此,本文将从“主题扩散演化”这一角度切入,以基金和论文数据为研究对象,面向研究前沿识别及其预测的情报分析任务场景,研究基金、论文这两种不同科技数据和文献之间研究主题的扩散演化滞后现象,探索归纳其基本机制与规律,并提出一般、通用的基于主题扩散演化滞后的研究前沿识别方法,以期提高研究前沿识别结果的“前瞻价值”。
本文首先梳理了研究前沿识别、主题演化和主题扩散等相关概念、理论与方法,并对本文研究的关键概念“研究前沿”、“主题扩散演化”进行了界定,从科学发展模式理论、生命周期理论和系统论等视角下分析了本文研究的理论基础、依据。目前研究中的主要不足包括:利用不同数据源(基金、论文等)识别研究前沿的研究大都简单将不同数据源的识别结果进行并列、叠加和对比分析,缺少对不同数据蕴含的研究主题内在关联的考虑,难以全面把握创新特征,影响了研究前沿识别的准确性和前瞻性。
针对目前上述研究的不足,本文提出了基金与论文关联的主题扩散演化路径识别及其可视化分析方法。首先梳理了科技规划、基金和论文等用来识别研究前沿的这些科技文献并分析了它们之间存在着直接或间接关联关系,指出基金、论文作为科学知识的主要载体,其中蕴含的研究主题、研究前沿等作为科学知识系统内容的核心要素,存在一定的显、隐性联系,并通过主题转移、扩散和演化等时序变化过程表现出来;重点设计了基金与论文关联的主题扩散演化路径识别及其可视化方法框架,包括数据获取及预处理、基于LDA模型的研究主题识别、基金与论文主题关联构建和主题扩散演化路径可视化等部分。以美国人工智能领域为例进行了实例验证,根据所设计的可视化方案绘制了可交互的基金与论文关联的主题扩散演化路径可视化图谱,验证了方法的可行性、有效性。
接下来重点提出了基金和论文主题扩散演化滞后效应测度方法。具体包括:首先,识别出不同时间窗口下基金和论文的研究主题并基于余弦相似度构建主题之间的关联关系,然后根据研究前沿判别指标构建战略坐标图进行研究前沿主题识别,在此基础上,从外部数量特征和内部主题特征两个层面分析基金和论文研究前沿主题的扩散演化滞后效应。研究发现,美国人工智能领域的基金和论文中蕴含的研究前沿主题存在一定关联关系,研究前沿主题的出现存在时间先后顺序(滞后性),对于美国人工智能领域,可以根据基金的研究前沿主题来预测未来2年论文的研究前沿主题,依据论文的研究前沿主题可以预测未来1年基金的研究前沿主题。
在上述研究结果基础上,本文提出基于主题扩散演化滞后的研究前沿识别及其预测分析方法。以美国纳米农业领域作为实证分析对象,验证了基于主题扩散演化滞后的研究前沿识别及其预测分析方法的有效性和可行性。在美国纳米农业领域基金和论文主题识别、前沿特征计算基础上,结合战略坐标图进行了研究前沿主题初始判别。接着进行美国纳米农业领域基金和论文主题扩散演化滞后效应测度,研究发现美国纳米农业领域中在一定程度上可以根据基金的研究主题来预测未来3年论文的研究主题,依据论文的研究主题可以预测未来2年基金的研究主题;根据滞后效应测度结果进行了滞后修正的研究前沿主题识别,其中,预测了未来3年论文中的研究前沿主题,得到纳米颗粒在农作物代谢过程中诱导应激机制、用于绿色和可持续环境及农业应用的纳米气泡技术、农作物吸收不同剂量下纳米材料的反应与机制、基于纳米颗粒-植物-叶相互作用的农药研发、纳米颗粒在农作物-土壤生态系统中的积累与转化机制、基于纳米技术的农作物基因组编辑与工程和纳米生物传感器在农业中的应用等七个研究前沿主题;最后,基于ARIMA模型和Word2vec模型从主题强度和主题内容两个维度对七大研究前沿主题进行深度预测解读分析。
论文的主要创新贡献为:
(1)提出了基金和论文关联的主题扩散演化路径识别及其可视化方法。为了有效地识别基金和论文之间的主题扩散演化路径并对其进行可视化揭示,提出了相应方法,相较于现有面向单一数据的主题演化分析方法,该方法能够有效识别基金和论文主题之间的扩散演化路径并实现演化路径的可视化,可在一定程度上提高主题扩散演化路径结果的直观性、可读性。
(2)定量、客观测度了基金和论文主题之间的扩散演化效应。创新性地提出了主题扩散演化滞后效应的测度方法,即从外部数量特征(自回归分布滞后模型)和内部主题特征(主题内容演化)两个层面分析基金和论文前沿主题的扩散演化滞后效应。
(3)提出了一套系统的基于主题扩散演化滞后的研究前沿识别及其预测的新方法。该方法将主题扩散演化、滞后现象和研究前沿识别有机融合,提出滞后修正的研究前沿识别方案,并利用ARIMA模型和Word2vec模型对研究前沿主题未来发展趋势进行分析与科学预测。与现有方法相比,一方面能够通过(基金或论文)主题扩散演化滞后效应结果来预测未来几年可能的(论文或基金)研究前沿主题,提高研究前沿主题识别结果的“前瞻价值”;另一方面可以通过对比研究前沿主题的可能发展方向来拓展研究前沿主题识别结果的分析粒度。