基于深度学习的科技术语抽取方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:BruceLee_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技术语是特定领域中不断探索和研究而逐步形成的专业知识概念的语言表示。在科技情报分析,知识组织系统建设的研究工作中,科技术语抽取是一项重要的研究内容。在科技情报分析工作中,可以通过科技术语抽取对相应的科技语料进行更进一步的分析,以获取更有价值的情报;在知识组织系统中,术语是构成相应知识组织系统的重要部分,可作为基础支撑后续相关工作。深度学习是一类新兴的多层神经网络学习方法,具有多层非线性映射的深层结构,旨在通过多层结构的学习获取更能代表原始数据的高级特征。深度学习目前已经在多个领域中取得了一定的研究成果,但在科技术语抽取的研究中提及甚少,因此,本文将深度学习方法应用在科技术语抽取中,探索基于深度学习的科技术语抽取方法。  本文首先对已有的术语抽取方法及深度学习相关研究进行了介绍;其次考虑到现实中无标签的数据量远远多于有标签的数据量,而深度学习中的深度自编码器模型可以利用无标签的数据进行预训练,可以更好地应对客观现实中缺乏大量有标签数据的问题,因此本文将深度自编码器模型应用在科技术语抽取中,构建了一套以深度自编码器模型为核心的科技术语抽取方法,并详细介绍了该方法涉及到的相关理论和技术;最后利用该方法在真实有效的科技语料上进行科技术语抽取实验,并通过相应评价指标对该方法的术语抽取效果进行分析。  本文通过实验分析得出以下结论:首先,在构建深度自编码器模型时,可以使用一些新型的激活函数和优化方法以替代传统的激活函数和优化方法,并结合不同的隐藏层层数设置,以尽可能取得更好的特征学习效果;其次,对于深度自编码器模型学习到的高级特征,可以使用不同的分类器,以更好地对特征所代表的词进行术语与非术语的分类;此外,本文构建的基于深度自编码器模型的科技术语抽取方法,可以提高单独使用基于规则的方法和C-Value方法进行科技术语抽取的准确率;同时,该方法可以发现部分未被收录在术语词表中,但也表征了一定专业概念,具有一定意义的科技术语。本文的研究成果表明,将深度学习应用在科技术语抽取中是可行且有效的,后续相关研究可在本文研究的基础上进行深入。  本文的创新点主要为:针对深度学习在科技术语抽取中鲜有提及的情况,设计了一套较为系统完整的基于深度自编码器模型的科技术语抽取方法,并通过实验验证了方法的有效性。同时在对比实验中,尝试将新型的激活函数和优化方法进行应用,以改进深度自编码器模型中传统的激活函数和优化方法。通过使用新型的激活函数和优化方法,取得了较传统激活函数和优化方法更好的实验效果。
其他文献
科技投入对于科技的发展具有十分重要的作用,政府应该发挥相应职能,重视科技投入,而不能完全依靠市场。近年来,随着我省科技投入的不断加大,对于科技投入绩效的评价已成为值得关注的问题。本文以安徽省科技投入绩效评价为研究对象,搜集相关资料,介绍安徽省科技发展情况,在理论研究的基础上,分析安徽省政府科技投入的情况、存在的问题及问题产生的原因,确定适合安徽省科技投入绩效评价的指标,提出可行的对策建议。本文在参
信息在日常生活中具有重要的作用,是人们行为活动的依据。作为社会人的个体,在现实与虚拟世界中和不同的人结合成各种各样的人际关系,并在各种关系之间进行人际信息的交换。近年
[目的/意义]数据获取是网络舆情研究的第一个阶段,在大量数据面前,构建网络舆情推文热度测度模型能够快速筛选出能为网络舆情研究所用的数据.[方法/过程]借鉴信息论中平均自
新时期,小学数学教学过程中,教师应该在做好基础性的理论知识教学基础上,帮助学生结合自身的知识来做好探究和深层次的感悟,学生的知识层面往往较为狭窄,教师要通过不同的方
[目的/意义]针对当前我国多媒体网络舆情响应问题,梳理并提出以危机风险分型为基础的政府组织响应路径整合匹配、响应工作流程模型构建机理,以期为管理决策者提升资源整合能
摘要:本文通过研究对比中西方国家在思维方式、民族文化等方面存在的差异以及英语学习者平时存在的问题,中式英语对学生写作和交际的影响、原因以及如何避免中式英语等方面进行了分析,让中国学生对中式英语有进一步的了解和认识,对于提高学生的写作能力、思考能力、交际能力,逐渐克服和避免运用中式英语有一定的指导作用和现实意义。  关键词:中式英语;写作技能;语言差异  中图分类号:G632.0 文献标识码:A 文
公共图书馆是保障人们自由获取信息和知识的一种制度产品,建立健全图书馆制度能够保障覆盖全社会的、普遍均等的公共服务,从而保障公民信息自由的权利。但由于图书馆制度的公共
随着新课程标准的实施,加强人类优秀文化的交流与传播成为现代小学语文课程教学中强化学生核心素养的重要任务.小学语文学科兼具人文性和应用性,是渗透中华民族优秀传统文化
小学数学教学大纲中明确提出,不仅要使学生掌握基础知识,还要遵循学生的认知规律,重视学习获取知识的思维过程.因此在教学活动中,必须认真研究学生学习的过程和方法,重视学生
全媒体时代,媒介融合的特质深刻改变了信息传播环境。本文从内容形态、传播主体、传播维度等方面分析了变化的趋势及其对传统出版方式、阅读习惯的影响。随着数字、信息技术对