【摘 要】
:
随着互联网和信息科技的飞速发展,快速高效地从海量数据当中检索到内容成为一个越来越重要的需求。本文中首先针对目前信息检索技术的发展现况进行了简要的介绍和分析,介绍了
论文部分内容阅读
随着互联网和信息科技的飞速发展,快速高效地从海量数据当中检索到内容成为一个越来越重要的需求。本文中首先针对目前信息检索技术的发展现况进行了简要的介绍和分析,介绍了传统信息检索技术以及概念图为代表的语义检索模型。为了更好的提供信息检索服务,还要更准确的把握用户需求的内容和特点。本文以搜索引擎的检索日志和问答网站的问题语句为例,对用户的信息检索需求语句的形式和特点进行了简要的分析。我们发现在问答社区的问题语句中,问题语句的字数远高于搜索引擎纪录,这些分析表明用户对问句形式的检索具有很大需求,因此基于语义分析的检索模型将是未来研究的重点方向。本文对概念图模型的表示形式、数学定义和运算法则等方面进行了简要介绍,详细叙述了计算概念图相似度的计算公式和方法。之后就概念图的标引问题及其研究现状简要叙述,确定了本文的研究方向是探索使用标引好的概念图进行准确高性能的信息检索的方法。之后,本文提出了引入分布式计算模型当中常用的有向无环图模型,将其与概念图模型结合起来进行信息检索的方法。选用的RDD模型作为目标模型,给出了将概念图模型通过转化为RDD模型的算法和对应的评价函数。在转化的时候我们首先确定概念图的中心节点,此后以中心节点为根将概念图展开为树形结构并移除多余的关系节点,然后将中心节点之外的概念节点以及其直接前驱的关系节点组合起来生成转换节点。最后再分层次地为树结构添加聚合节点,从而输出流过这一有向无环图计算模型的每一个文档的最终排序评分。本文设计并实现了算法对应的原型系统,将整个问答社区问题集合作为检索目标,选取扩展布尔模型作为对照模型进行检索实验并统计了相关评价指标,证明了本文提出的算法具有可行性和较好的检索效果。本文提出的模型和算法探索了利用检索语句已经标引好的概念图进行信息检索的方法,证明了这一方法的可行性和有效性,为之后进一步的研究提供了一些有益的思路。
其他文献
多智能体系统通常是指由大量具有通信连接的智能体所组成的系统。借助相互之间的信息交换系统在整体上可以呈现出单一智能体所不具备的行为。由于在多智能体系统的研究领域,
胃癌的发病率和死亡率都位居各种癌症的前列,是一种世界性的疾病,给很多人的正常生活带来严重影响。胃癌在早期症状不明显,相当多的病例在确诊后已经延误了最好的治疗机会。
在医学图像的三维重建的过程中,结合图像分割算法,一个序列的CT图像会产生多个不同器官的三角形网格,部分器官如骨骼等会含有大量的顶点和三角形面片。运行分割算法和存储大
C2区块位于缅甸中央盆地北部的睡宝次盆内,西部以岛弧带与钦敦盆地相连,东部为分割掸邦高原和中央盆地的Saging走滑断裂,南部以低隆与Pegu-Yoma盆地相隔,面积约为26506km2。睡宝盆地是在中生界基础上发育起来的边缘海弧后叠合盆地,上覆盖层为巨厚的新生界沉积,厚度大于20 km,是主要的油气勘探目的层。目前区块内仅有Sabade-1和AZY-1两口钻井,获得天然气地质发现,勘探程度较低。
随着互联网以不可遏制的速度融入到普通人的生活中以及智能手机、平板等移动手持设备的出现,信息交流的频率和速度不断加快。由于图像所展现出来的信息更加准确、生动,在众多
产品工程变更基本上是无法避开而且肯定会发生的事情,它会在产品的整个生命周期内一直存在,并会让其产品的开发周期变长,开发所需的成本增加。开展这项管理工作,主要的目的并不是为了能够规避变更的出现,而是要有效管控变更过程,增加其解决的速度,降低因为这个原因造成的质量、成本等方面的影响。本文以康明斯中国工厂企业为切入点,探究和讨论企业在产品工程变更管理方面存在的不足之处,研究和分析了其三大难点,即数据和协
在当前大数据和人工智能时代,行人检测的相关研究得到广泛应用,特别是在自动驾驶、视频监控和人员检索等领域。随着摄像机数量的快速增长,获取海量数据变得相对容易,但为每个
语音是人与人之间交流的重要方式,但在现实中语音通常受到噪声的干扰,因此从嘈杂的环境中提取近似纯净的语音成为研究重点。语音增强是语音信号处理的重要领域,用以解决语音
室内场景的三维感知与重建一直以来都是计算机图形学和计算机视觉领域热门的研究课题,而高质量的深度图像的获取是研究、理解和重建室内三维场景几何信息的关键。目前获取室
传统的工业过程优化控制,在面对复杂环境时难以建立精准的数学模型,解决如控制器参数整定等问题时,往往依赖于专家的决策经验,根据控制目标和操作工况进行参数试凑。然而,由