论文部分内容阅读
以专业用户情报需求为核心的知识服务理论,给支撑科技战略情报工作的计量学研究提出了新的实践要求。传统的科学计量研究大都以文献的形式特征和核心知识内容概括特征(主题范畴)为计量对象,欠缺对同主题文献间内容特异知识元以及不同主题相同知识元的计量,失去了通过知识元来表征文献内容的深层次逻辑关系的机会。 科技战略情报的基本任务是:通过提供事实数据及其关联证据,来监测分析科技发展的动态和动向,以把握科技发展大势、研判科技发展方向、识别科技创新突破口和生长点。ESI研究前沿(Research Fronts)作为对全球科技发展布局和竞争结构的揭示,可以为前瞻谋划和布局前沿科技领域与方向提供重要的情报参考。ESI研究前沿不是静态固化的,而是不断演变和动态发展的,如何深入挖掘研究前沿内在科学知识结构及其演进规律理应成为科技情报研究的重要选题。目前国内鲜有将ESI研究前沿数据深入到学科领域知识本身进行分析研究的报道;而且现有对某领域研究前沿的演进分析也往往依靠人工判读,缺乏数据层面的客观计量支撑。 当前对科学知识演化的分析主要以词语在学科主题中的浅层关联入手,短板在于对科技文献内创新知识的抽取及其流动扩散规律关照不够。词语语义分析也多是从对自然语言理解技术应用出发,没有从科技专业知识创新发展演化的内在逻辑入手。由于现有词语语义变迁研究并未将词语变化置于科学知识演化情境,使得对表征领域知识的词语在前沿主题中的分布变迁问题关注不足。此外,情报学领域缺少先进的技术方法对研究前沿的动态演化过程和领域知识在前沿主题中的分布变化进行识别探测,而传统数据挖掘领域由于其技术导向特征,往往缺乏对于领域前沿深入的知识内容分析。 基于上述背景,本文围绕当前相关研究理论方法存在的主要问题,提出了一种深入到科技文献全文内部、以文献中隐性专业知识本身作为计量对象的科学计量方法。课题首先对专业知识元和知识元计量方法进行探索构建。然后在理论构建基础上,面向ESI研究前沿的定量演进应用,结合命名实体识别、语义标注、机器学习、自然语言处理等数据挖掘技术,从不同知识元量化角度展开实验探索——基于知识元共现、迁移、变异的ESI研究前沿演进分析。 论文所做工作和主要贡献体现在以下两个方面: (1)厘清专业知识元的概念,提出知识元计量方法。 结合案例创新性的构建了一种具有计量属性、表征科学内涵的专业知识元,并探索提出了知识元计量方法。知识元计量方法,可以深入到文献内部、以文献中隐性专业知识本身作为计量对象,能够实现科学计量与内容分析的有机结合,通过对文献中专业知识元的抽取分析,为用户提供解决实际问题的知识产品,提高用户知识发现效率,实现精准知识服务。 (2)基于科技文献全文本数据,创新设计3种知识元计量方法指标,以数据挖掘技术为辅助,分层次深入展开ESI研究前沿演进分析。 课题基于OSCAR4命名实体识别技术,对研究前沿核心论文施引文献全文的实验片段进行抽取,得到代表文献关键创新知识点的化学实体知识元。在此基础上,首先,基于知识元共现网络的中心性指标和模块度特征,开展知识元共现的研究前沿演进分析。然后,计算知识元对于前沿主题文本的PLDA主题概率和信息熵值,对应设计的前沿贡献度和迁移度指数,测度知识元在同语义主题内不同时期的迁移特征。最后,通过Word2vec训练知识元词向量,使用K-means算法聚类同语义簇知识元,利用TF-IDF计算知识元突发变异程度,进而探测未来可能推动科技前沿创新发展的关键情报特征。总之,基于知识元共现的研究前沿演进分析,旨在从知识元共现、链接、组合关系入手探索研究前沿内部的知识演进特点;基于知识元迁移的研究前沿演进分析,则从个体知识元视角展现研究前沿的微观知识流动规律和机理;而基于知识元变异的研究前沿演进分析,则利用同语义语用簇内知识元的变异指标测度,识别不同时期可能引领研究前沿未来发展方向的重要突发信号。 本文通过与传统基于关键词和主题词计量分析结果的比较,检验该方法的先进性;利用《2017研究前沿》报告结果、权威会议论文、领域专家、专业学科文献等验证该方法的有效性和实用性。结果发现,通过对ESI研究前沿中知识元共现、迁移、变异现象的定量分析,可以从专业领域科学知识构造的微观视角量化解构ESI研究前沿演进变迁规律,更加细粒度地离析研究前沿科学知识随时间推演的变迁、重组、集成、扩散状态,还能够尽早识别未来可能引发重大科技创新和突破的知识变异信号,对于支撑科技战略情报工作实践、科研人员选题指导、决策者学科发展谋划布局均具有一定参考价值和应用意义。