论文部分内容阅读
科技资源往往围绕着领域术语进行组织,如何快速准确的识别科技术语,帮助科研人员从海量数字资源中快速便捷地捕获科技发展动态,一直是自然语言处理领域研究的一个热点问题。目前,FlyBase、UMLS、STKOS等术语语料资源日益完善,为基于大规模领域词典高效快速识别科技术语及缩略语奠定了坚实的基础,但传统识别方法存在一些缺点,例如缺乏对领域词典本身组织方式的深入探索;相似术语识别方法在大规模实际应用中,运行时间较长,识别效率较低;缺乏对未登录科技缩略语的考虑。 本文在对国内外相关成果进行借鉴的基础上,提出对传统TRIE树结构进行改进,实现大规模领域词典的快速组织;采用权重差异化对相似术语进行快速判定;基于逆序扫描和共现分析方法对未登录缩略语进行快速识别的整体研究思路。基于该思路,本研究的三个关键问题为:(1)探索一种基于改进TRIE树的大规模领域词典的快速组织方法;(2)设计一种术语变体识别的新方法,快速识别相似术语;(3)探索一种快速识别未登录科技缩略语的新方法。基于以上三个关键问题,笔者提出了相应的解决方案:(1)对TRIE结构进行改进,设计领域词典的逻辑存储模型。该模型通过采用不同数值表示TRIE树结点的状态,使术语所有构成结点组成一个有限状态机,根据结点状态信息就能够快速判断是否构成最长术语。同时,为每个结点构建了动态哈希数组,保存每个结点的位置信息,实现结点的快速定位。最后基于该模型,提出领域词典的构造方法和更新方法;(2)设计候选术语的识别规则,从科技资源中识别出候选术语;提出基于权重差异化的相似术语判定方法,通过术语长度裁剪、编辑距离共享、编辑矩阵降维等策略进行相似术语的快速比较;(3)对科技资源中缩略语的构成情况进行分析,将缩略语划分为规范缩略语和非规范缩略语两类,并分别采用逆序扫描方法和共现分析方法对缩略语进行快速识别。 论文采用PubMed数据集,以人工标注的术语作为标准数据,将本研究提出的方法与SemRep方法、TF*IDF方法进行实验对比分析。实验结果表明本方法同其他方法相比,具有较低的时间复杂度和较高的运行效率,同时本方法能够有效识别科技文本中未登录的缩略语及其全称,更有助于科研人员捕获科技发展动态,进而通过实验证明了文中识别方法的有效性和可行性。