基于知识库的智能搜索引擎的研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:sailordong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展和普及导致了网上信息爆炸性增长。如何在互联网上获得有价值的信息已成为人们日益关注的问题。搜索引擎是以一定的策略在互联网中发现、搜集信息,对信息进行理解、提取、处理和组织,并为用户提供检索服务,从而方便了用户快速找到所需信息。但是由于大部分搜索引擎采用基于关键字匹配的信息检索方式,这种参与匹配的是字符的外形、外在的表现形式,而不是它们所表达的全部概念,因而经常出现检索不全,答非所问的结果,在很大程度上影响了搜索引擎的查准率和查全率。本文提出了一种基于知识库的搜索引擎,以研究实现用户的概念检索。本文主要的研究工作有如下几个方面:   对搜索引擎的体系结构和工作原理进行了研究和分析,并分析了当前搜索引擎智能化的研究内容;研究知识库、本体技术及二者之间的关系,提出利用一种本体技术构建知识库的方法;研究利用知识库进行查询预处理方法,把多对多的关系转化成多对一的形式,采用与用户有关的概念下的关键字进行扩展,提高了数据检索的准确率。论文深入分析先进制造技术领域技术知识的特点,利用本体技术完成先进制造技术领域技术概念知识库的构建与存储模式。通过引入相似度计算,使网络爬虫在信息搜集方面具体一定的智能性。通过知识库对用户检索关键字的查询预处理,来实现概念检索。   在上述研究和设计的基础上,本文在Nutch开源搜索引擎的基础上进行二次开发,完成原型系统(KISE)的实现,并给出了核心模块的具体实现过程和实验结果分析,以验证研究和设计的可行性。
其他文献
随着传感网、物联网、泛在网和智慧地球等概念的提出,无线传感器网络做为计算机科学与技术中一个重要的研究领域,对他们的研究和发展具有一定的支撑性作用。无线传感器网络的
Web信息具有动态性、分布性和规模性的特点,未来的Web服务应该向人们提供智能化、个性化的服务,并且能够有效地解决现实问题。在当今Web背景下,单一推理技术已无法满足现实问题
学位
秘密共享是现代密码学的一个重要分支,是保障信息安全和数据保密的重要手段之一。利用秘密共享保存和管理秘密信息,一方面可以防止权力过于集中而被滥用,分散了责任;另一方面
车间流水作业调度问题是生产、调度领域的一个热点、难点,是许多实际生产调度问题的典型调度简化模型。总完工时间是一个重要的衡量指标,它的最小化能有效提高设备利用率、缩短
H.264是国际电信联盟与国际标准化组织联合推出的新一代视频编码标准。该标准采用了先进的编码技术,具有卓越的压缩性能,并且易于网络传输,能够满足多种视频应用的需求。因此
学位
随着计算机与网络技术的快速发展,大数据集的出现致使人们获取的信息量正在以前所未有的速度日益剧增,也导致大量不相关或冗余数据的不断涌现。因此,如何快速获取所需有用信
当今,各种各样的企业级应用系统的使用缩短了业务流程执行的周期,提高了业务处理的效率,降低了业务处理的成本,并且能够为企业未来发展决策提供强有力的数据统计和分析的支持。但
数据挖掘是指从含有大量数据的数据库中提取有效的、有潜在价值的、新颖的信息和知识的非平凡过程。在许多的数据挖掘方法中,粗糙集方法是其中的一种很好的数据挖掘工具。在
服务和服务组合作为一个研究热点问题已经有很多年了。当前从工业上的标准(如BPEL、OWL-S)到理论上的方法(如Petri网、进程代数和自动机等),提出了很多的方法来研究他们,但这
计算机和网络技术的快速发展,推动了电子政务的信息化进程,政府在信息化建设过程中,经常需要根据现实情况和公众需求,对原有的应用系统进行升级改造,或者开发新的应用系统,在
学位