论文部分内容阅读
作为科研活动的创新主体,科研人才的重要性不言而喻。具有潜力的青年科研人才有着巨大的发展潜力,是未来科学研究发展的新生力量。识别科研学术新星在科研机构招聘、青年人才培养和引进、期刊会议候选审稿人选择等多类应用中有着重要的作用。识别学术新星从广义上来说是一个学术评价的问题。目前的学术评价方法,如H指数等,往往在权威学者的识别上更为敏感,而学术新人科研生涯较短,与权威学者相比有着自己的特点,很难将传统的人才识别和评价方法简单套用到学术新星的识别上。近年来,学术新星识别研究得到了越来越多的重视,但已有方法仍存在一定的问题和局限性。
本研究基于这一背景,以学术新星识别为研究问题,开展了方法调研、基础研究、方法研究和实证研究,主要工作总结如下。
(1)围绕学术新星识别问题开展调研,从传统科研人才评价方法出发,梳理并分析了传统方法在解决学术新星识别问题中存在的局限性;梳理了目前已有的学术新星识别方法,将这些方法总结为三类,分析了这三类方法的思想、实证数据来源、验证方法和存在的不足;特别地,针对基于排序的学术新星方法所存在的问题进行了分析,提出了本研究需要解决的问题。
(2)从“学术文献视角”、“人才计划视角”和“国际奖项视角”三个不同的视角,对“学术新星”的定义、标准和指标进行了分析。进而,本研究对科研学术新星进行了定义,即学术新星指的是进入学术领域时间较短,但具有较高的学术成长潜力,并且能够在未来达到高H指数的学者,这些学术新星通常在科研能力与科研合作上均优于一般的学术新人。根据这一定义,本研究总结了学术新星的显性特征和隐性特征。其中显性特征指的是学术新人的科研成果水平;隐性特征指的是学术新星的合作情况和所在的科研环境。与此同时,根据学术新星特征对科研成果水平、合作情况和科研环境的指标进行了梳理,提出了科研学术新星特征指标体系。
(3)方法研究。从大数据和人工智能预测问题的思路出发,提出科研学术新星识别RStarRank方法,将学术新星识别问题定义为在进入学术领域时间较短的学术新人中,根据以科研成果水平代表的显性特征和以合作情况、科研环境代表的隐性特征,预测未来能够达到高H指数的学者(即科研学术新星)。具体来说,就是通过学习大量的学术新人在学术生涯初期(5年和10年)的“特征”以及这些学术新人“未来”(学术生涯第30年)的H指数(即“标签”),形成预测模型来预测学术新人成长为权威学者的概率大小序列。根据这一思路,RStarRank方法提出了5年数据特征指标集和10年数据特征指标集;采用机器学习算法作为学习算法,采用Pairwise算法作为排序算法;采用正确率、精确率、召回率和F1值来评价二分类的预测性能;采用命中率来评价排序的预测性能;利用学者学术生涯第30年时的H指数、论文数量、引用数量,以及就职机构、所获奖项、所获头衔等学术成就来验证识别方法的有效性;利用同类型、相近计算量和数据量的算法进行对比验证,以H指数、论文总量和被引用量,预测排序序列的所有关系对大小的准确率作为比较指标。
(4)实证研究。在方法研究的基础上,选择计算机领域开展实证。通过对预测模型进行训练和优化,测试结果显示,RStarRank方法的预测准确率10年数据可以达到90%以上,5年数据可以达到84%以上;通过对学术新星预测排名的Top20在30年后的学术成就进行验证发现,本文提出的RStarRank方法所识别的学术新星在学术生涯中成就较高;与其他识别方法进行对比实验显示,RStarRank方法的预测准确率更高。
本文开展的学术新星识别方法研究拓展了科研人才学术评价方法体系,弥补了在青年科研人才评价和识别方面的缺失。具体创新和贡献有以下几个方面。
(1)从三个视角对科研学术新星进行了分析,总结了学术新星的定义,提出了学术新星的特征指标体系。
本研究从“学术文献视角”、“人才计划视角”和“国际奖项视角”三个不同的视角,对“学术新星”的定义、标准和指标进行了分析,进而分析总结出了更加贴近应用需求的科研学术新星的定义。进一步,根据对学术新星的特征分析,总结了科研学术新星的显性特征和隐性特征,即在学术水平、科研合作与流动、科研环境上都具有自身的特点。由此,本研究提出了学术新星识别特征指标体系,包括了作者类、出版物类、机构类、时间增量类指标。
(2)针对目前研究存在的问题,提出了基于机器学习算法及对偶排序算法的科研学术新星识别方法:RStarRank方法。
该方法对科研学术新星的关键问题界定更贴近实际应用,具有一定的合理性。RStarRank方法中,对科研学术新人界定为学术生涯不超过10年,这一界定相较以往学术新星识别研究中的界定更加符合青年人才选拔和引进等应用场景;对科研学术新星识别中“未来”观测时间的设定为学术生涯30年,几乎涵盖了大部分科研人员的整个学术生涯,较已有研究大多为3-10年的设定更加合理。
该方法采用Pairwise排序算法对识别问题进行了转化,使之成为科研学术新人间的排序大小比较,因此该方法在一定程度上可以适用于不同领域内的学术新星识别应用。
该方法在应用时具有对数据量要求和计算代价小的特点;可采用少量特征指标(5个)进行预测,指标数据可获得性强,因而可满足不同任务目标和数据条件的识别预测。
该方法在计算机领域实证证明了方法的有效性。实证结果显示,方法预测准确率10年数据可以达到90%以上,5年数据可以达到84%以上;RStarRank方法识别的“学术新星”在30年后无论是从H指数还是论文总量、被引用量来看,均属于领域前列学者,从所担任职位和所获荣誉来看,都是计算机领域有影响力的学者。与数据量和计算量要求近似的PubRank方法相比,RStarRank方法更能寻找到“未来”H指数、论文总量和被引用量高的学术新人,且对学术新人排序准确率可达到80%以上,高于PubRank方法的48%。
(3)研究得出识别学术新星的若干重要特征和结论。
本研究得到以下结论:①10年数据相对5年数据能更加准确地筛选出学术新星;②科研学术新人能够成长为学术新星的一个重要特征是其科研成果水平;③科研学术新人所在机构在早期识别中更为关键,在后期并不特别重要;④科研学术新人的合作与流动也较为重要,与学术水平高的人合作,意味着其成为学术新星的可能性越大。
本研究基于这一背景,以学术新星识别为研究问题,开展了方法调研、基础研究、方法研究和实证研究,主要工作总结如下。
(1)围绕学术新星识别问题开展调研,从传统科研人才评价方法出发,梳理并分析了传统方法在解决学术新星识别问题中存在的局限性;梳理了目前已有的学术新星识别方法,将这些方法总结为三类,分析了这三类方法的思想、实证数据来源、验证方法和存在的不足;特别地,针对基于排序的学术新星方法所存在的问题进行了分析,提出了本研究需要解决的问题。
(2)从“学术文献视角”、“人才计划视角”和“国际奖项视角”三个不同的视角,对“学术新星”的定义、标准和指标进行了分析。进而,本研究对科研学术新星进行了定义,即学术新星指的是进入学术领域时间较短,但具有较高的学术成长潜力,并且能够在未来达到高H指数的学者,这些学术新星通常在科研能力与科研合作上均优于一般的学术新人。根据这一定义,本研究总结了学术新星的显性特征和隐性特征。其中显性特征指的是学术新人的科研成果水平;隐性特征指的是学术新星的合作情况和所在的科研环境。与此同时,根据学术新星特征对科研成果水平、合作情况和科研环境的指标进行了梳理,提出了科研学术新星特征指标体系。
(3)方法研究。从大数据和人工智能预测问题的思路出发,提出科研学术新星识别RStarRank方法,将学术新星识别问题定义为在进入学术领域时间较短的学术新人中,根据以科研成果水平代表的显性特征和以合作情况、科研环境代表的隐性特征,预测未来能够达到高H指数的学者(即科研学术新星)。具体来说,就是通过学习大量的学术新人在学术生涯初期(5年和10年)的“特征”以及这些学术新人“未来”(学术生涯第30年)的H指数(即“标签”),形成预测模型来预测学术新人成长为权威学者的概率大小序列。根据这一思路,RStarRank方法提出了5年数据特征指标集和10年数据特征指标集;采用机器学习算法作为学习算法,采用Pairwise算法作为排序算法;采用正确率、精确率、召回率和F1值来评价二分类的预测性能;采用命中率来评价排序的预测性能;利用学者学术生涯第30年时的H指数、论文数量、引用数量,以及就职机构、所获奖项、所获头衔等学术成就来验证识别方法的有效性;利用同类型、相近计算量和数据量的算法进行对比验证,以H指数、论文总量和被引用量,预测排序序列的所有关系对大小的准确率作为比较指标。
(4)实证研究。在方法研究的基础上,选择计算机领域开展实证。通过对预测模型进行训练和优化,测试结果显示,RStarRank方法的预测准确率10年数据可以达到90%以上,5年数据可以达到84%以上;通过对学术新星预测排名的Top20在30年后的学术成就进行验证发现,本文提出的RStarRank方法所识别的学术新星在学术生涯中成就较高;与其他识别方法进行对比实验显示,RStarRank方法的预测准确率更高。
本文开展的学术新星识别方法研究拓展了科研人才学术评价方法体系,弥补了在青年科研人才评价和识别方面的缺失。具体创新和贡献有以下几个方面。
(1)从三个视角对科研学术新星进行了分析,总结了学术新星的定义,提出了学术新星的特征指标体系。
本研究从“学术文献视角”、“人才计划视角”和“国际奖项视角”三个不同的视角,对“学术新星”的定义、标准和指标进行了分析,进而分析总结出了更加贴近应用需求的科研学术新星的定义。进一步,根据对学术新星的特征分析,总结了科研学术新星的显性特征和隐性特征,即在学术水平、科研合作与流动、科研环境上都具有自身的特点。由此,本研究提出了学术新星识别特征指标体系,包括了作者类、出版物类、机构类、时间增量类指标。
(2)针对目前研究存在的问题,提出了基于机器学习算法及对偶排序算法的科研学术新星识别方法:RStarRank方法。
该方法对科研学术新星的关键问题界定更贴近实际应用,具有一定的合理性。RStarRank方法中,对科研学术新人界定为学术生涯不超过10年,这一界定相较以往学术新星识别研究中的界定更加符合青年人才选拔和引进等应用场景;对科研学术新星识别中“未来”观测时间的设定为学术生涯30年,几乎涵盖了大部分科研人员的整个学术生涯,较已有研究大多为3-10年的设定更加合理。
该方法采用Pairwise排序算法对识别问题进行了转化,使之成为科研学术新人间的排序大小比较,因此该方法在一定程度上可以适用于不同领域内的学术新星识别应用。
该方法在应用时具有对数据量要求和计算代价小的特点;可采用少量特征指标(5个)进行预测,指标数据可获得性强,因而可满足不同任务目标和数据条件的识别预测。
该方法在计算机领域实证证明了方法的有效性。实证结果显示,方法预测准确率10年数据可以达到90%以上,5年数据可以达到84%以上;RStarRank方法识别的“学术新星”在30年后无论是从H指数还是论文总量、被引用量来看,均属于领域前列学者,从所担任职位和所获荣誉来看,都是计算机领域有影响力的学者。与数据量和计算量要求近似的PubRank方法相比,RStarRank方法更能寻找到“未来”H指数、论文总量和被引用量高的学术新人,且对学术新人排序准确率可达到80%以上,高于PubRank方法的48%。
(3)研究得出识别学术新星的若干重要特征和结论。
本研究得到以下结论:①10年数据相对5年数据能更加准确地筛选出学术新星;②科研学术新人能够成长为学术新星的一个重要特征是其科研成果水平;③科研学术新人所在机构在早期识别中更为关键,在后期并不特别重要;④科研学术新人的合作与流动也较为重要,与学术水平高的人合作,意味着其成为学术新星的可能性越大。