论文部分内容阅读
科技信息与科学知识是科技进步与科技创新的关键性因素,数字化、网络化环境下的科技文献资源具有海量化、多样化、数据增长迅速等特点,科学技术的飞速发展和人们对最新科技文献的迫切需求导致了科技文献激增,尤以英文科技文献增长最为显著。因此,如何从海量的英文科技文献中获取有用的知识,满足不同科研用户对专题情报研究的需求,将是本文重点思考的问题。本文以英文科技文献为研究对象,以数字化、网络化环境下的专题情报服务为需求和出发点,以专题情报服务演变过程及趋势、文献资源存储与资源加工、主题分析与主题演化、知识存储与知识管理的理论与方法为基础,充分融合关键词组提取、主题抽取与主题演化等技术方法,探讨面向专题情报服务的英文科技文献深度加工与主题演化问题,设计开发面向专题情报服务的英文科技文献深度加工与主题演化原型系统,提高科技情报服务工作中专题领域知识的处理分析和服务利用效率。本文的主要工作和研究成果主要体现在以下三个方面:(1)整合英文科技文献深度加工处理流程框架,从资源采集与导入、资源加工与处理和资源知识服务三个方面分别介绍其体系架构,并以可应用性、可操作性为导向,针对资源加工与处理中的关键词组提取问题,对现有算法和技术进行改造应用,将其整合到英文科技文献处理全生命周期全流程框架中。基于N-Gram统计模型,以Snowball分类器为基础,针对英文科技文献的特征,结合TP-IDF、单词频率、单词个数、大写字母个数和位置等特征,提出一种改进的细粒度、多层次的英文科技文献关键词词组提取算法,充分考虑关键词“词组”提取问题,提高英文科技文献关键词词组提取的正确率与召回率。对Engineering Village中采集的233篇火炮领域英文期刊论文进行实验,结果显示本文提出的算法在关键词组提取的召回率达到61.10%,是目前通用的KEA算法的近三倍,F1值也高于传统KEA算法。(2)提出基于关键词组提取和主题模型的多维度、可视化的英文科技文献主题演化分析体系,包括体系结构、主题强度度量和主题演化判定的方法。从时间轴、关键词词频等外部特征选取参数,多维度、多视角地基于特征统计进行主题分析,同时以英文科技文献中主题的建模为切入点,以科技期刊和科技新闻为文献类型进行主题分析,构建“文献—特征词—主题”的内容主题模型。最后选取火炮领域的英文科技期刊和英文科技新闻进行实例分析,并对不同类型的英文科技文献进行主题分析与演化规律的对比,观察其主题内容和在时间序列上的演化脉络及演化规律,发现不同文献类型的英文科技文献其时间差异及词汇差异。(3)从技术角度出发,采用C#程序设计语言和.NET开发平台,设计并开发了面向专题情报服务的英文科技文献深度加工与主题演化系统,并提出了网络环境下专题情报服务的新模式。该系统操作灵活,可扩展知识库,为文献情报机构科研人员提供个性化、深层次、多维度和细粒化的英文科技文献深度加工与主题演化服务。