论文部分内容阅读
自然语言处理是人工智能的一个重要研究领域,它主要研究如何利用计算机来理解、处理和生成自然语言。在数据库查询系统中应用自然语言理解技术,设计数据库自然语言查询接口,已成为自然语言研究中最具有广泛应用前景的方向之一。本文主要对数据库自然汉语查询接口进行研究。由于自然汉语本身的复杂性,在开放领域内很难实现对查询语句的完全理解。但数据库查询语句是面向特定领域——数据库查询,所以数据库查询语句是一个受限汉语,而且数据库ER模型是一种很好的信息模型。在自然汉语理解中结合受限汉语和数据库ER模型,可大大增强查询接口的可实现性。本文首先介绍了数据库自然语言查询接口,提出了本课题的研究背景和现状。在对已有技术的总结上,设计了一个通用的数据库自然汉语查询接口模型,该接口主要包括自然汉语理解部分和知识库部分。在自然汉语理解部分中,有自动分词、中间语言生成和SQL语句生成三个模块。先对查询语句自动分词和词性标注,本文采用最大正向匹配算法,对每个分词结果进行尾部歧义检查,对最主要的交集型歧义采用归右原则处理。然后对标注好的词串切分并提取目标短语、条件短语。再将每一种类型的目标短语和条件短语转化为相应的查询目标和查询条件,填充相关的实体数组、查询目标数组、查询条件数组等,生成完备的中间语言。最后再通过数据库关联知识库确定目标实体和条件实体的关联路径,这样就可以方便地生成SQL查询语句。自然语言理解部分的基础是一个良好的知识库,为了便于向其他数据库移植,本接口系统中的知识库分为通用知识库和专用知识库,通用知识库中包括分词和语法两个知识库,专用知识库中包括分词、数据库表和数据库关联三个知识库,专业知识库随面向的应用数据库不同而改变。最后本文讨论系统的实验结果。实验结果表明示例数据库的自然汉语查询达到较好效果,验证了本文提出自然汉语数据库查询接口的可行性。同时在数据库查询接口的用户界面中可以方便地管理各个知识库,已便于系统功能的不断完善。