论文部分内容阅读
科技术语是特定领域中不断探索和研究而逐步形成的专业知识概念的语言表示。在科技情报分析,知识组织系统建设的研究工作中,科技术语抽取是一项重要的研究内容。在科技情报分析工作中,可以通过科技术语抽取对相应的科技语料进行更进一步的分析,以获取更有价值的情报;在知识组织系统中,术语是构成相应知识组织系统的重要部分,可作为基础支撑后续相关工作。深度学习是一类新兴的多层神经网络学习方法,具有多层非线性映射的深层结构,旨在通过多层结构的学习获取更能代表原始数据的高级特征。深度学习目前已经在多个领域中取得了一定的研究成果,但在科技术语抽取的研究中提及甚少,因此,本文将深度学习方法应用在科技术语抽取中,探索基于深度学习的科技术语抽取方法。 本文首先对已有的术语抽取方法及深度学习相关研究进行了介绍;其次考虑到现实中无标签的数据量远远多于有标签的数据量,而深度学习中的深度自编码器模型可以利用无标签的数据进行预训练,可以更好地应对客观现实中缺乏大量有标签数据的问题,因此本文将深度自编码器模型应用在科技术语抽取中,构建了一套以深度自编码器模型为核心的科技术语抽取方法,并详细介绍了该方法涉及到的相关理论和技术;最后利用该方法在真实有效的科技语料上进行科技术语抽取实验,并通过相应评价指标对该方法的术语抽取效果进行分析。 本文通过实验分析得出以下结论:首先,在构建深度自编码器模型时,可以使用一些新型的激活函数和优化方法以替代传统的激活函数和优化方法,并结合不同的隐藏层层数设置,以尽可能取得更好的特征学习效果;其次,对于深度自编码器模型学习到的高级特征,可以使用不同的分类器,以更好地对特征所代表的词进行术语与非术语的分类;此外,本文构建的基于深度自编码器模型的科技术语抽取方法,可以提高单独使用基于规则的方法和C-Value方法进行科技术语抽取的准确率;同时,该方法可以发现部分未被收录在术语词表中,但也表征了一定专业概念,具有一定意义的科技术语。本文的研究成果表明,将深度学习应用在科技术语抽取中是可行且有效的,后续相关研究可在本文研究的基础上进行深入。 本文的创新点主要为:针对深度学习在科技术语抽取中鲜有提及的情况,设计了一套较为系统完整的基于深度自编码器模型的科技术语抽取方法,并通过实验验证了方法的有效性。同时在对比实验中,尝试将新型的激活函数和优化方法进行应用,以改进深度自编码器模型中传统的激活函数和优化方法。通过使用新型的激活函数和优化方法,取得了较传统激活函数和优化方法更好的实验效果。