基于改进TRIE树的英文术语及缩略语识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:leongiggs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技资源往往围绕着领域术语进行组织,如何快速准确的识别科技术语,帮助科研人员从海量数字资源中快速便捷地捕获科技发展动态,一直是自然语言处理领域研究的一个热点问题。目前,FlyBase、UMLS、STKOS等术语语料资源日益完善,为基于大规模领域词典高效快速识别科技术语及缩略语奠定了坚实的基础,但传统识别方法存在一些缺点,例如缺乏对领域词典本身组织方式的深入探索;相似术语识别方法在大规模实际应用中,运行时间较长,识别效率较低;缺乏对未登录科技缩略语的考虑。  本文在对国内外相关成果进行借鉴的基础上,提出对传统TRIE树结构进行改进,实现大规模领域词典的快速组织;采用权重差异化对相似术语进行快速判定;基于逆序扫描和共现分析方法对未登录缩略语进行快速识别的整体研究思路。基于该思路,本研究的三个关键问题为:(1)探索一种基于改进TRIE树的大规模领域词典的快速组织方法;(2)设计一种术语变体识别的新方法,快速识别相似术语;(3)探索一种快速识别未登录科技缩略语的新方法。基于以上三个关键问题,笔者提出了相应的解决方案:(1)对TRIE结构进行改进,设计领域词典的逻辑存储模型。该模型通过采用不同数值表示TRIE树结点的状态,使术语所有构成结点组成一个有限状态机,根据结点状态信息就能够快速判断是否构成最长术语。同时,为每个结点构建了动态哈希数组,保存每个结点的位置信息,实现结点的快速定位。最后基于该模型,提出领域词典的构造方法和更新方法;(2)设计候选术语的识别规则,从科技资源中识别出候选术语;提出基于权重差异化的相似术语判定方法,通过术语长度裁剪、编辑距离共享、编辑矩阵降维等策略进行相似术语的快速比较;(3)对科技资源中缩略语的构成情况进行分析,将缩略语划分为规范缩略语和非规范缩略语两类,并分别采用逆序扫描方法和共现分析方法对缩略语进行快速识别。  论文采用PubMed数据集,以人工标注的术语作为标准数据,将本研究提出的方法与SemRep方法、TF*IDF方法进行实验对比分析。实验结果表明本方法同其他方法相比,具有较低的时间复杂度和较高的运行效率,同时本方法能够有效识别科技文本中未登录的缩略语及其全称,更有助于科研人员捕获科技发展动态,进而通过实验证明了文中识别方法的有效性和可行性。
其他文献
随着时代的发展,文化产业的竞争日趋激烈,大学生作为我们国家的新一代核心竞争力,他们的健康状况问题一直受到国家的密切关注,本文将运用文献资料法、问卷调查法、数理统计法
本文以某钢结构装配式公寓楼为案例,对BIM正向设计技术如何在项目中介入、BIM正向设计技术在装配式建筑设计中的优势、如何进行全专业三维化设计协同以及全专业BIM正向施工图
中长跑运动是以有氧代谢为主的耐力性周期运动项目,是发展耐力的项目.但是由于教学或者运动中经常存在着一些问题,使得中长跑运动并不是那么受学生所喜欢,特别是学生参与中长
专利地图技术是指从相关的专利文献中抽取信息建立专利信息库并制作形成专利地图(静态理解)的一系列过程,该技术可以高效地揭示出专利所包含的信息。将专利地图应用于技术竞争
中长跑是中距离、长距离跑的合称.目前小学生的体质下降,耐力不够.通过中长跑运动能够培养小学生的意志,增强体质、提高学习成绩和促进身心协调发展都起到积极作用.
期刊
①rn频数分布直方图中小长方形的宽度表示各组的组距,高度表示每一组的频数与组距的比值,面积表示各组的频数.rn②rn在画等距分组的频数分布直方图(即小长方形的宽都相等)时,
期刊
对运动员比赛心理的影响因素及训练方法的研究进行综述,本文对运动员良好心理素质在比赛中对运动员的自我控制能力、提高运动员的心理承受能力、提高运动员对环境的适应能力
随着科技的发展,英语电子词典已悄然成为我们学习英语必备的工具.市场上有许多英语电子词典,销售人员往往强调词典的大容量,比如“该词典超大容量,含有10万个单词,学好英语必备工具”等等.我们如果一个单词一个单词去数,无疑是不现实的,作为消费者,怎样快速、简捷地鉴别这类产品是否属实呢?本文介绍一个利用样本估计总体的方法,期待起到抛砖引玉的作用,  先找一本常用的印刷品英文词典,数出以“v”作为首字母的单
期刊
高职高专院校的学生接受的是专业化教育,大众化的体育教学模式在高职高专院校体育教学中难以满足专业化的教学模式,学校要根据学生自身素质进行专业的素质教育,从而提高教育