基于知识图谱的搜索引擎技术研究与应用

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:OsWorkFlow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:现代信息技术的发展使得网络中的信息数据呈爆炸式增长。海量的数据确实对社会发展产生了巨大贡献,但同时庞大数据的提取与应用则成为一个难题,尤其在对成千上万类别的信息数据进行搜索时,其为搜索引擎的功能、性能都带来巨大考验。现有的搜索引擎主要是针对网络中的数据全文进行索引,而缺少足够的针对性,难以充分满足用户的信息筛选需求。因此,如何对现有搜索引擎技术进行改善和优化就成为互联网领域的一个重要研究课题。文章主要围绕特定领域内基于知识图谱的搜索引擎技术及其实现展开研究,提出了一种更能够理解用户需求的搜索引擎解决方案。
  关键词:搜索引擎;知识图谱;数据提取;用户需求
  1 基于知识图谱的搜索引擎技术概述
  知识图谱是融合现代应用数学、图形学、信息可视化技术、计量学引文分析等理论与方法而形成的一种现代理论[1-4]。在互联网领域,知识图谱则具体指基于实体或概念之间的语义关系构建而形成的一种知识网络。一直以来,知识图谱都是互联网领域的重点研究对象,并且在一些领域的信息抽取系统中得到深入应用,如Never-Ending语言学习系统、Google搜索引擎等。而随着互联网的高速发展,针对某一领域或全网范围进行知识图谱的建构也是当前互联网领域的重点工作之一[5]。目前,基于知识图谱的搜索引擎技术主包含本体库、网络爬虫、索引和查询等[6]。而这些技术形成不同的模块共同构成了基于知识图谱的搜索引擎。此外,这种搜索引擎的体系结构一般包含3部分:网络爬虫模块、索引与检索模块、知识图谱模块[7]。
  2 基于知识图谱的搜索引擎技术
  2.1 爬虫技术
  在互联网搜索引擎中,爬虫技术是最重要的技术之一[8-9]。搜索过程中网络爬虫会自动的对所有可以访问的内容进行采集同时按照搜索要求从中抓取相应数据。从互联网搜索引擎诞生之初,该技术就一直在被应用。网络爬虫技术的实现涉及协议处理器、内容提取、URL提取以及URL处理器4部分。而网络爬虫在进行页面信息抓取时通常采取广度优先、深度优先以及最优选择3种策略。
  2.2 索引与检索技术
  索引与检索技术的基础是Lucene开源全文检索框架[10]。该框架能够有效融入程序,从而使各种应用借助这一框架实现搜索功能。该检索框架由索引组件以及搜索组件两部分组成。索引组件的主要作用在于将原始数据转换成可以被检索的数据,以提升数据检索效率。搜索组件则主要用以进行目标关键词与相关条目的匹配,进而完成数据搜索命中的任务。
  2.3 知识图谱技术
  知识图谱技术是互联网搜索引擎技术领域中的一个巨大突破,它为网络搜索引擎的发展带来巨大变革。以知识图谱技术为基础,搜索引擎可以更深入地理解用户需求,理解相关搜索问题并提供信息和知识解答。可以说,知识图谱技术使搜索引擎摆脱了传统泛化搜索的局面。
  知识图谱技术主要涉及知识图谱模型的构建方法,而其模型又主要由Web实体挖掘及数据处理模块、知识表示模块、知识图谱引擎模块和数据分析接口模块构成。
  3 基于知识图谱的搜索引擎技术应用
  作为一种先进的搜索引擎技术,基于知识图谱的搜索引擎在具体应用中需要通过以下项目的构建来实现。
  3.1 搜索引擎构建
  搜索引擎的构建需要确定好相应的数据爬取框架和索引引擎。此处搜索引擎的构建采用Scrapy框架与Solr索引引擎。Scrapy爬虫在相应的网站中进行实体数据的实现方法如图1所示。
  Solr数据检索的构建和实现可以分为实体数据向索引数据的转换和匹配关键词完成数据检索两部分。
  3.2 知识图谱构建
  知识图谱的构建过程如下:首先需要将相关搜索领域的实体插入图谱,随后再将内容实体插入,最后将内容实体与其他实体之间的关联建构起来,从而形成一个完整的知识图谱。此外,在节点的插入过程中,还应该依据实体类型来进行属性信息索引的建构,从而进一步提升检索的准确性和效率。
  3.3 检索结果排序
  基于知识图谱的搜索引擎构建还涉及最终的检索结果排序问题。本文采用的Lucene框架下的搜索结果排序方式一般有按照索引先后顺序和按照匹配相似度计算的分值两种,但这两种排序方式都有一定的弊端。因此,本文提出了一个全新的检索结构排序模型。该模型下的基本排序步骤为:(1)对每个实体及其属性值与检索词的匹配值进行计算;(2)对属性匹配值与属性权重累加和进行相乘;(3)对命中实体和其他命中实体的关系值进行相加,若两者有关系,记为1,若无关则记为0;(4)将上述计算值乘以权重再求和。
  3.4 信息推荐
  在搜索引擎中,检索得到最终结果后还需要对检索到的内容进行推荐,这也是搜索引擎构建中必须要完成的一环。由于传统搜索引擎基于内容的推荐算法已经无法满足人们的需求,本文在构建搜索引擎的过程中以知识图谱为基础提出了一种信息推荐方法,即以命中实体与其他实体间的距离来进行推荐,而这一距离则代表着实体间的匹配度。A,B两个节点间的距离由路径代表。在信息推荐过程中依据对每种关系的赋值就可以将不同节点间的距离准确计算出来,随后再结合这一距离值进行信息的推荐。这一推荐方式可以在实践中优先推荐与特定实体匹配度高的实体。
  4 结语
  通过上述基于知识图谱的搜索引擎技术及其应用的研究,我们基本可以了解到这一技术的基本内容和搜索引擎构建的基本思路。然而在实际应用中,该技术还需要技术人员明确具体的应用领域后,有针对性地开展搜索引擎构建、知识图谱构建以及排序方式和信息推荐方式的设计。该技术在实践中仍有较大的研究空间。
  [参考文献]
  [1]郭蕴颖.基于知识图谱的电网信息搜索引擎的设计与实现[D].北京:中国科学院大学,2020.
  [2]秦长江,侯汉清.知识图谱—信息管理与知识管理的新领域[J].大学图书馆学报,2009(1):30-37,96.
  [3]陈悦,刘则渊,陈劲,等.科学知识图谱的发展历程[J].科学学研究,2008(3):449-460.
  [4]陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005(2):149-154.
  [5]徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016(4):589-606.
  [6]刘春圃.基于疾病知识图谱的关联搜索技术研究[D].哈尔滨:哈尔滨工业大学,2019.
  [7]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016(3):582-600.
  [8]孫立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010(15):4112-4115.
  [9]周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005(9):1965-1969.
  [10]高龙,张涵初,杨亮.基于知识图谱与语义计算的智能信息搜索技术研究[J].情报理论与实践,2018(7):42-47.
  (编辑 傅金睿)
其他文献
随着时代的发展,我国的传统刺绣艺术已经形成了自己独特的艺术体系,在艺术发展上取得了辉煌的成绩。刺绣是我国传统的民间工艺,将其引入现代服装能够促进服装行业的发展,对我
我国经济以及文化的发展繁荣,致使服装表演专业也获得快速发展,高校对于服装表演专业的教育也更加重视。都市商务休闲服饰穿搭作为当前的流行趋势,其穿搭技巧十分讲究。为此,
扎染是传统而古老的印染技术,其自身魅力使扎染文化与技法流传至今。随着时代的发展,扎染工艺不断与当今科技文化融合创新,在人们对个性时尚的强烈追求下,扎染风潮于近年强势
当下年轻群体追求更为个性化的价值观和生活方式。各种不同的审美理念和价值观对青年人的影响尤为明显。现在的文化消费正在从以前简单、单一的经济交流,逐渐发展为更具地域
近年来我国的文创产品不断创新和丰富,通过创意加工,可以提升它的经济价值和艺术价值。我国博大精深、具有强大表现力的汉字,为文创产品设计者提供不竭的设计灵感。为此,对文
“暝眩”反应是指患者服用药物后突然出现的一种暂时性的眩冒现象,其特点是突发性、短暂性、临床表现的多样性。此反应在患者服药过程中出现,持续时间短暂,一般在患者临床症
目的:观察养阴润燥喷雾剂对胃肠癌患者术后口干症的干预作用。方法:将90例行胃肠癌手术的患者随机分为中药喷雾组、饮用水喷雾组和对照组,每组30例。对照组术后予常规禁食、
黄土高原退耕还林草生态建设改变了区域覆被格局和下垫面环境条件,对流域地表水文过程产生了重要影响。研究黄土丘陵沟壑区坡沟系统不同降雨类型下的土壤水分入渗特征,对揭示植被恢复驱动下的降雨-入渗机制变化具有重要的科学意义。基于坡沟系统土壤水分入渗过程的定位监测,阐明了坡沟系统土壤水分入渗特征对不同降雨类型的响应,并采用Horton、Mezencev、Kostiakov、USDA-NRCS模型进行土壤水分
本文对高校基础设施维修的计划阶段、设计阶段、招投标阶段、施工阶段和竣工验收阶段等进行了分析,提出了适应当前高校基础设施维修的管理办法,有利于降低维修成本,使有限的
变频器是当前较为广泛使用的一种交流仪器,在各个工农业领域都有充分的运用。变频器主要是由主回路,开关电源电路,保护监测电路和控制电路等组成,并且在这些电路中,中央微处理器,数