基于自然汉语的数据库查询研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:playlogic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能的一个重要研究领域,它主要研究如何利用计算机来理解、处理和生成自然语言。在数据库查询系统中应用自然语言理解技术,设计数据库自然语言查询接口,已成为自然语言研究中最具有广泛应用前景的方向之一。本文主要对数据库自然汉语查询接口进行研究。由于自然汉语本身的复杂性,在开放领域内很难实现对查询语句的完全理解。但数据库查询语句是面向特定领域——数据库查询,所以数据库查询语句是一个受限汉语,而且数据库ER模型是一种很好的信息模型。在自然汉语理解中结合受限汉语和数据库ER模型,可大大增强查询接口的可实现性。本文首先介绍了数据库自然语言查询接口,提出了本课题的研究背景和现状。在对已有技术的总结上,设计了一个通用的数据库自然汉语查询接口模型,该接口主要包括自然汉语理解部分和知识库部分。在自然汉语理解部分中,有自动分词、中间语言生成和SQL语句生成三个模块。先对查询语句自动分词和词性标注,本文采用最大正向匹配算法,对每个分词结果进行尾部歧义检查,对最主要的交集型歧义采用归右原则处理。然后对标注好的词串切分并提取目标短语、条件短语。再将每一种类型的目标短语和条件短语转化为相应的查询目标和查询条件,填充相关的实体数组、查询目标数组、查询条件数组等,生成完备的中间语言。最后再通过数据库关联知识库确定目标实体和条件实体的关联路径,这样就可以方便地生成SQL查询语句。自然语言理解部分的基础是一个良好的知识库,为了便于向其他数据库移植,本接口系统中的知识库分为通用知识库和专用知识库,通用知识库中包括分词和语法两个知识库,专用知识库中包括分词、数据库表和数据库关联三个知识库,专业知识库随面向的应用数据库不同而改变。最后本文讨论系统的实验结果。实验结果表明示例数据库的自然汉语查询达到较好效果,验证了本文提出自然汉语数据库查询接口的可行性。同时在数据库查询接口的用户界面中可以方便地管理各个知识库,已便于系统功能的不断完善。
其他文献
地理信息的提取和识别是地理信息系统(GIS)、全球定位系统(GPS)发展的基础和迫切需要。自动矢量化因其效率、精度、自动化程度和可靠性方面的显著优势,已经成为获取地理信息的
本文主要研究了将粗糙集 (Rough Set,RS) 约简的神经网络(Neural Network)技术同基于事例推理 (Case-Based Reasoning,CBR) 技术相结合用于昆虫的识别。神经网络技术和基于事例
Web应用系统是互联网技术推广以来发展最快的一种应用系统,基于Web的应用系统已经逐渐成为计算机应用系统的主流模型。J2EE技术架构为Web应用系统提供了性能可靠、服务优良的
为了让计算机能够自动处理机务信息,我们提出了机务信息规范化的研究课题。在机务信息规范化中,自动处理自然语言形式的机务信息是至关重要的。对于一个机务信息系统来说,理
重复体识别问题是现代生物信息学中基因组分析的一个基本研究课题。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律。许多转位子重复体序列作为可编码区域重复
医院的信息化建设在一定程度上被医院的管理者看作是摆脱困境的一项重要举措,医院的管理者希望通过信息管理系统的实施能让管理层更清楚掌握医院各项业务的开展情况和对医院现
随着网络技术的不断发展,Internet已经成为人们工作和生活的重要组成部分。为满足人们日益增长的通信需求,下一代互联网NGI(Next Generation Internet)必须支持总最佳连接ABC(A
随着网络通信量爆炸性增长以及高性能网络设备的出现,密集波分复用 DWDM(Dense Wavelength Division Multiplexing)技术将会成为下一代Internet骨干网的核心技术。在日趋成熟
P2P(Peer-to-Peer)网络最近几年发展很快。非结构化和结构化P2P网络是其中的两种基本拓扑类型。非结构化P2P网络使用洪泛方法,有着较高的稳定性,但是可扩展性和查询效率比较
随着Internet的快速发展,人们迫切需要信息压缩工具来对大量的信息进行提炼、浓缩,而自动摘要系统正是这样的工具。人们可以首先利用计算机对这些大量的文本信息进行处理,生