基于主题扩散演化滞后的研究前沿识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hdf1038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的不断进步,科技创新成果涌现,生产力迅猛发展,对于各行各业的影响日益加深,科学技术成为促进经济增长、推动产业革命的重要源泉,科技竞争力逐渐成为国家地位的保障。科技竞争力地位的不断提高对于情报学界的研究范式提出了新的要求,注重尽早发现、识别科技创新的前沿、热点,并评估其发展趋势,以支撑相关科技发展决策。
  数据科学时代,科技情报分析与研究的问题往往更为综合,涉及要素更为多元,同时也更为细化,这导致单一数据源(论文或者专利等)不能满足前沿情报分析需求,需要不同类型的数据源相互补充。但是,目前的研究侧重于基金、论文和专利等科技文献数据简单融合分析的实践应用,基金、论文和专利等科技文献数据的研究主题之间的相互作用机制尚待探讨,即目前情报学界对于基金、论文和专利之间的科学知识传递、扩散演化规律研究不足,在一定程度上限制了基金、论文和专利等不同科技文献数据融合分析的科学性、有效性。
  因此,本文将从“主题扩散演化”这一角度切入,以基金和论文数据为研究对象,面向研究前沿识别及其预测的情报分析任务场景,研究基金、论文这两种不同科技数据和文献之间研究主题的扩散演化滞后现象,探索归纳其基本机制与规律,并提出一般、通用的基于主题扩散演化滞后的研究前沿识别方法,以期提高研究前沿识别结果的“前瞻价值”。
  本文首先梳理了研究前沿识别、主题演化和主题扩散等相关概念、理论与方法,并对本文研究的关键概念“研究前沿”、“主题扩散演化”进行了界定,从科学发展模式理论、生命周期理论和系统论等视角下分析了本文研究的理论基础、依据。目前研究中的主要不足包括:利用不同数据源(基金、论文等)识别研究前沿的研究大都简单将不同数据源的识别结果进行并列、叠加和对比分析,缺少对不同数据蕴含的研究主题内在关联的考虑,难以全面把握创新特征,影响了研究前沿识别的准确性和前瞻性。
  针对目前上述研究的不足,本文提出了基金与论文关联的主题扩散演化路径识别及其可视化分析方法。首先梳理了科技规划、基金和论文等用来识别研究前沿的这些科技文献并分析了它们之间存在着直接或间接关联关系,指出基金、论文作为科学知识的主要载体,其中蕴含的研究主题、研究前沿等作为科学知识系统内容的核心要素,存在一定的显、隐性联系,并通过主题转移、扩散和演化等时序变化过程表现出来;重点设计了基金与论文关联的主题扩散演化路径识别及其可视化方法框架,包括数据获取及预处理、基于LDA模型的研究主题识别、基金与论文主题关联构建和主题扩散演化路径可视化等部分。以美国人工智能领域为例进行了实例验证,根据所设计的可视化方案绘制了可交互的基金与论文关联的主题扩散演化路径可视化图谱,验证了方法的可行性、有效性。
  接下来重点提出了基金和论文主题扩散演化滞后效应测度方法。具体包括:首先,识别出不同时间窗口下基金和论文的研究主题并基于余弦相似度构建主题之间的关联关系,然后根据研究前沿判别指标构建战略坐标图进行研究前沿主题识别,在此基础上,从外部数量特征和内部主题特征两个层面分析基金和论文研究前沿主题的扩散演化滞后效应。研究发现,美国人工智能领域的基金和论文中蕴含的研究前沿主题存在一定关联关系,研究前沿主题的出现存在时间先后顺序(滞后性),对于美国人工智能领域,可以根据基金的研究前沿主题来预测未来2年论文的研究前沿主题,依据论文的研究前沿主题可以预测未来1年基金的研究前沿主题。
  在上述研究结果基础上,本文提出基于主题扩散演化滞后的研究前沿识别及其预测分析方法。以美国纳米农业领域作为实证分析对象,验证了基于主题扩散演化滞后的研究前沿识别及其预测分析方法的有效性和可行性。在美国纳米农业领域基金和论文主题识别、前沿特征计算基础上,结合战略坐标图进行了研究前沿主题初始判别。接着进行美国纳米农业领域基金和论文主题扩散演化滞后效应测度,研究发现美国纳米农业领域中在一定程度上可以根据基金的研究主题来预测未来3年论文的研究主题,依据论文的研究主题可以预测未来2年基金的研究主题;根据滞后效应测度结果进行了滞后修正的研究前沿主题识别,其中,预测了未来3年论文中的研究前沿主题,得到纳米颗粒在农作物代谢过程中诱导应激机制、用于绿色和可持续环境及农业应用的纳米气泡技术、农作物吸收不同剂量下纳米材料的反应与机制、基于纳米颗粒-植物-叶相互作用的农药研发、纳米颗粒在农作物-土壤生态系统中的积累与转化机制、基于纳米技术的农作物基因组编辑与工程和纳米生物传感器在农业中的应用等七个研究前沿主题;最后,基于ARIMA模型和Word2vec模型从主题强度和主题内容两个维度对七大研究前沿主题进行深度预测解读分析。
  论文的主要创新贡献为:
  (1)提出了基金和论文关联的主题扩散演化路径识别及其可视化方法。为了有效地识别基金和论文之间的主题扩散演化路径并对其进行可视化揭示,提出了相应方法,相较于现有面向单一数据的主题演化分析方法,该方法能够有效识别基金和论文主题之间的扩散演化路径并实现演化路径的可视化,可在一定程度上提高主题扩散演化路径结果的直观性、可读性。
  (2)定量、客观测度了基金和论文主题之间的扩散演化效应。创新性地提出了主题扩散演化滞后效应的测度方法,即从外部数量特征(自回归分布滞后模型)和内部主题特征(主题内容演化)两个层面分析基金和论文前沿主题的扩散演化滞后效应。
  (3)提出了一套系统的基于主题扩散演化滞后的研究前沿识别及其预测的新方法。该方法将主题扩散演化、滞后现象和研究前沿识别有机融合,提出滞后修正的研究前沿识别方案,并利用ARIMA模型和Word2vec模型对研究前沿主题未来发展趋势进行分析与科学预测。与现有方法相比,一方面能够通过(基金或论文)主题扩散演化滞后效应结果来预测未来几年可能的(论文或基金)研究前沿主题,提高研究前沿主题识别结果的“前瞻价值”;另一方面可以通过对比研究前沿主题的可能发展方向来拓展研究前沿主题识别结果的分析粒度。
其他文献
大科学时代,科学研究具有投资强度大、多学科交叉、实验设备昂贵、研究目标宏大等特点,加之科学问题复杂度的提升和科研人员专业化程度的不断提高,科研合作逐渐成为推动科学研究进步和科学技术发展的重要途径。随着世界经济、创新资源和创新活动的全球化,跨国家(地区)的国际科研合作越来越普遍,世界各国纷纷就特定的科学问题在世界范围内寻求合作伙伴,以与本国的资源达成优势互补。  伴随着科学国际化趋势的日益加深,国际
学术期刊的学术质量与同行评议有着密切的关系。同行评议在学术期刊的质量控制中一直发挥着十分重要的作用,但同行评议过程往往受到复杂因素的影响,并且伴随着与人的大规模合作互动,因此其质量难以被严格把控和管理,一直存在许多缺陷和问题。近年来,随着科学认知的不断深化,网络技术的飞速发展,这些缺陷和问题变得更加突出,造成的影响也日益恶劣,引发了学界的高度警惕。如何进行同行评议质量控制,如何实施可靠的同行评议质
学位
随着科学技术的发展,人类进入知识经济时代,知识更新周期越来越短。人类学习从一次性在学校接受教育,发展到终身学习。科研人员作为科技知识的生产者,尤其是自然科学研究人员,在科学技术的发展中发挥着重要的作用。技术发展推动着科学创新,而科学创新又促进技术的发展。在这种环境下,科技人才发展尤为重要。而作为知识源头的科研人员需要提升哪些科研素质,何种方式最有效,成为当前亟需解决的问题。  本文研究定位于面向自
学位
开放获取作为一种新型出版模式,对图书馆传统订购模式具有直接而重要的影响。它不仅成为科学研究的新型学术交流模式,也为图书馆提供信息服务和知识服务提供了新的挑战和机遇。从短期看,它有助于提升图书馆信息获取能力,改变图书馆信息资源结构和获取方式;从长期看,它可能从根本上改变学术交流模式,改变目前学术交流生态系统中各生态主体的功能和定位。  在此背景下,图书馆信息资源建设如何积极利用学术交流生态系统动态变
新型冠状病毒肺炎疫情正在给全球人类的生命健康、社会稳定、经济发展和地区安全造成严重的威胁,应当及时采取科学有效的应急响应措施来对抗疫情。科学技术能够为应急响应提供科学支撑。在突发公共卫生事件下,疾病的检测、诊断、治疗和疫苗等方面的科技进步,对于拯救生命、平息疫情、恢复秩序有着重要意义。而科研团体是否能够及时公开、迅速分享其相关的科研成果,又直接影响着全球科技战“疫”的步伐。目前,国内对该方面的了解
研究前沿(Research Front)是科学研究中最新、最具前瞻性和引领性的研究方向,其作为科技创新的突破口和新生长点,备受关注,尤其是在《国家创新驱动发展战略纲要》全面实施以来。面对科技创新发展新趋势,研究如何及早、准确识别研究前沿,预测未来方向和重点,对更好服务国家科技宏观决策、合理配置科技资源、帮助科研工作者及时把握科学研究动态,均具有重要意义。当前,研究前沿识别主要有基于引用、基于内容以
学位
传统引文分析主要考虑论文之间的引用数量联系,但引文之间存在着更为丰富的语义关联,如引用动机、引用情感倾向等。为了更加有效揭示论文之间的内容联系,论文提出引用对象的概念来描述论文与引文内容上的关联点,并探索应用当前信息技术的发展成果,实现引用对象的自动识别,揭示引文重要知识单元,有助于从语义角度评价引文的学术贡献。  论文梳理了国内外相关研究进展,总结提出存在两种引用对象——术语型引用对象和事实型引
学位
在传统学术交流机制中,科研过程中的“非正式交流”与以商业学术出版为代表的“正式交流”相互分离,致使原本贯穿科研过程的“研究产生交流、交流促进研究”连贯一体化的状态被破坏,多元交互的交流机制被碎片化甚至孤岛化。  随着数字内容和信息网络的发展,已经出现了以开放获取(Open Access,OA)为代表的学术信息传播的新形态和以社交媒体(Twitter、Facebook、LinkedIn、Resear
学位
世界已经从信息时代逐步进入到大数据时代,海量数据中很大一部分是用自然语言记录的文本数据。而电子公文作为文本数据类型的一种,它是政府机关、企事业单位等形成、具有法律效力和规范体式的数字形式的文件。历年累积的电子公文归档保存后一般按照内容进行人工主题标引、分类组织或者建立专题数据库以方便检索和开发利用。但人工标引主题方式存在劳动量大、速度慢、标引不一致等弊端,因此需要研究电子公文主题自动标引方法。  
学位
人类社会的进步和发展得益于技术的开发与广泛应用。技术和人文的相互融合共同推动了图书馆新的变革与转型,其中一个重要的趋势是向智慧图书馆方向发展。近年来,以人工智能技术等为代表的新兴技术蓬勃兴起,智慧城市、智慧社会、智慧社区和智慧校园等“智慧化”实践不断推进,用户信息需求仍在不断升级,这些环境的变化为图书馆的发展带来了契机,也带来了挑战。加快智慧图书馆建设,不断丰富服务内容、创新服务方式、提升服务水平