基于共被引耦合与LDA模型的研究前沿识别方法优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:strongit_likai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究前沿(Research Front)是科学研究中最新、最具前瞻性和引领性的研究方向,其作为科技创新的突破口和新生长点,备受关注,尤其是在《国家创新驱动发展战略纲要》全面实施以来。面对科技创新发展新趋势,研究如何及早、准确识别研究前沿,预测未来方向和重点,对更好服务国家科技宏观决策、合理配置科技资源、帮助科研工作者及时把握科学研究动态,均具有重要意义。当前,研究前沿识别主要有基于引用、基于内容以及二者结合的方法体系。相对而言,以引用分析为基础辅以内容分析的混合识别方法是现阶段研究前沿识别研究的热点,较常见的是将共被引分析、引文耦合与文本内容分析相结合,但结合主要聚焦在文献聚类与类簇描述层面,在聚类基础即信息域上并没有扩展,在内容语义分析方面还较浅表,识别出的研究前沿的“前瞻价值”和“学术准确性”常被质疑。
  鉴于此,为了更吻合科学家专业视野中的“研究前沿”,本文尝试从识别信息域(聚类基础)和识别语义深度两个层面对引用-内容相结合的研究前沿识别方法进行优化,基于多种学术引用关系研究构建更新颖、更高学术关联、更好覆盖度的研究前沿域,利用LDA主题模型从文本内容语义层面直接进行研究前沿识别,全面拓展深化引用-内容结合方法的信息域与语义深度,切实提高研究前沿识别的新颖性与准确性。
  本文综合采用文献调研、归纳分析、文献计量、文本挖掘、实证、专家咨询与评价、对比研究等方法,重点围绕科学研究前沿识别相关理论方法、共被引耦合-LDA法的设计、分析实验及效果评价开展研究。通过理论与实证研究,主要研究结果如下:
  (1)理论研究方面:基于对研究前沿概念发展演化的深入分析,归纳界定了其内涵特征:研究前沿是一组能够引领学科发展并在领域内具有较高活跃度、较高学术关注度的最新研究主题,活跃性、新颖性和关注度是其最基本的特征表现。
  (2)方法研究方面:从研究前沿信息域构建、基于PhraseLDA的主题抽取、基于“引用-内容”的研究前沿识别三方面展开。首先,研究提出了从学术引用维度、利用多种学术引用关系构建具有更好识别价值的研究前沿信息域的原则、思路和过程,籍此界定全新的“研究前沿信息域”;其次,研究设计了采用PhraseLDA模型进行研究主题抽取的具体方法和流程,包括抽取前的语料库构建、抽取过程中的参数设置等关键环节;第三,基于研究前沿“活跃性”、“新颖性”和“关注度”,设计构建了综合文献主题与引用特征的复合研究前沿识别指标——研究前沿量值。
  (3)试验研究方面:选取免疫学领域对新提出的研究前沿识别方法进行分析试验,依据“研究前沿量值”并结合专家评价,最终识别出26个免疫学研究前沿主题,研究前沿主题识别准确率达86.7%;研究前沿主题的平均发表年均值为2017.6,新颖度比经典的共被引分析法(2016.3)有较大提高。
  本文的主要结论与创新:一是提出可实现引用-内容深度结合的研究前沿识别方法——“共被引耦合-LDA法”,有效拓展深化了混合方法的聚类基础和语义深度,不仅提高了研究前沿识别的前瞻性,同时提高了内容语义识别的准确性,识别结果直接以主题短语形式呈现,易于理解:二是设计构建了结合文献“引用-内容”特征的复合型研究前沿识别指标——研究前沿量值。该指标在主题模型框架下量化研究前沿的基本特征,包括“主题活跃度”、“主题新颖度”和“主题影响度”三个分项指标。相对单一指标而言,研究前沿量值结合各分项指标,不仅能综合反映研究主题的前沿程度,且能体现主题在活跃性、新颖性和关注度方面的具体表现,有利于提高研究前沿识别的准确性。
  本文提出的“共被引耦合-LDA法”,将研究前沿识别过程与具体呈现过程结合起来,能够直接高效处理大规模学术语料,为大数据时代科学识别研究前沿提供了新思路和方法借鉴,不仅在方法论上优化了相关情报分析方法,而且在实践上提供了一个较为准确地把握科技前沿动态的新视角。
其他文献
研究型论文是人类知识的重要载体,蕴含了丰富的可促进科技发展和科技创新的知识内容。研究型论文的功能性语篇元素是指科研人员开展学术交流时表达写作意图的语言知识单元,如研究目的、研究方法等。自动标注出这些知识单元,能够帮助科研人员了解作者写作意图,快速理解论文研究内容,提高科研效率。国内外已经开展了相关的研究,但全面系统的研究较少,因此本文拟开展针对研究型论文的功能性语篇元素自动标注工作的系统性研究。 
清代校勘集前代之大成,并不断发展,成为中国校勘学史上的一个高峰。生于清代中期的段玉裁(1735-1815)处于清代校勘学发展的鼎盛时期,受时代影响,他远绍汉唐,崇尚朴学,又承袭戴震通“小学”以通“经学”的治学方法,以文字、音韵、训诂为基础,对古籍进行校订、注释、考据。他一生校订古籍数十部,包括《说文解字注》《古文尚书撰异》等,具有丰富的校勘经验,也形成了自己独有的特色。  段玉裁研究历来是研究的热
学位
大科学时代,科学合作日益普遍,已成为科研人员开展科学研究活动的主要模式之一。对科学合作的本质和价值的认识,不仅是科研管理部门的需求,也是学术研究领域探索科学活动规律中的重要研究主题。然而,随着科学合作的日益深入,特别是全球一体化环境促进了科学合作形式愈发多样和嵌入,多地理范围合作、跨文化族群合作、国际化联合实验室等新型合作方式也越发普遍。在此背景下,仅仅基于合作程度或者合作规模等线性视角的研究难以
学位
档案是过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。它以其记录性和原始性集于一体的特点区别于一般的历史遗物、它具有定向积累和历史联系性特点、它具有可靠性并多具有单一性和稀缺性、它以其原始和孤本而珍贵的特点区别于其他出版物。正因档案如此重要且具有价值,才逐步发展起来了档案编研。档案编
科技成果是科技创新的智慧结晶,科技成果转化是为提高生产力水平而对科技成果所进行的后续试验、开发、应用、推广,直至形成新技术、新工艺、新材料、新产品,发展新产业等活动。区域科技成果转化即是某一区域范围的科技成果转化。区域科技成果转化是衔接科技创新与产业应用的关键环节,对于促进该地区或国家的社会经济可持续发展具有非常重要的作用。自党的十八大提出创新驱动发展战略以来,区域科技成果转化已成为创新驱动发展的
大科学时代,科学研究具有投资强度大、多学科交叉、实验设备昂贵、研究目标宏大等特点,加之科学问题复杂度的提升和科研人员专业化程度的不断提高,科研合作逐渐成为推动科学研究进步和科学技术发展的重要途径。随着世界经济、创新资源和创新活动的全球化,跨国家(地区)的国际科研合作越来越普遍,世界各国纷纷就特定的科学问题在世界范围内寻求合作伙伴,以与本国的资源达成优势互补。  伴随着科学国际化趋势的日益加深,国际
学术期刊的学术质量与同行评议有着密切的关系。同行评议在学术期刊的质量控制中一直发挥着十分重要的作用,但同行评议过程往往受到复杂因素的影响,并且伴随着与人的大规模合作互动,因此其质量难以被严格把控和管理,一直存在许多缺陷和问题。近年来,随着科学认知的不断深化,网络技术的飞速发展,这些缺陷和问题变得更加突出,造成的影响也日益恶劣,引发了学界的高度警惕。如何进行同行评议质量控制,如何实施可靠的同行评议质
学位
随着科学技术的发展,人类进入知识经济时代,知识更新周期越来越短。人类学习从一次性在学校接受教育,发展到终身学习。科研人员作为科技知识的生产者,尤其是自然科学研究人员,在科学技术的发展中发挥着重要的作用。技术发展推动着科学创新,而科学创新又促进技术的发展。在这种环境下,科技人才发展尤为重要。而作为知识源头的科研人员需要提升哪些科研素质,何种方式最有效,成为当前亟需解决的问题。  本文研究定位于面向自
学位
开放获取作为一种新型出版模式,对图书馆传统订购模式具有直接而重要的影响。它不仅成为科学研究的新型学术交流模式,也为图书馆提供信息服务和知识服务提供了新的挑战和机遇。从短期看,它有助于提升图书馆信息获取能力,改变图书馆信息资源结构和获取方式;从长期看,它可能从根本上改变学术交流模式,改变目前学术交流生态系统中各生态主体的功能和定位。  在此背景下,图书馆信息资源建设如何积极利用学术交流生态系统动态变
新型冠状病毒肺炎疫情正在给全球人类的生命健康、社会稳定、经济发展和地区安全造成严重的威胁,应当及时采取科学有效的应急响应措施来对抗疫情。科学技术能够为应急响应提供科学支撑。在突发公共卫生事件下,疾病的检测、诊断、治疗和疫苗等方面的科技进步,对于拯救生命、平息疫情、恢复秩序有着重要意义。而科研团体是否能够及时公开、迅速分享其相关的科研成果,又直接影响着全球科技战“疫”的步伐。目前,国内对该方面的了解