基于语义的桌面搜索关键技术研究与实现

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:smilezhangnan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着硬盘成本的降低和容量的增大,用户开始在个人计算机中存放大量文件。虽然大部分操作系统提供了文件搜索工具,但是它们单一、固定的功能难以满足用户对个人计算机中丰富信息的多样化的搜索需求。因此,满足用户需求,快速和准确地定位存放在个人计算机硬盘上的信息成为一个亟待解决的问题。   Google、百度、Yahoo等公司纷纷推出桌面搜索工具,首先实现了文件的快速查找,使桌面搜索成为Web搜索的自然延伸。尽管桌面搜索的查找范围比Web搜索小很多,但是在搜索结果的准确性方面远不如Web搜索。因为硬盘文件不具有Web页面的超链接结构,所以桌面搜索不能像Web搜索一样对查询结果按照重要度排序,以致于返回的搜索结果不但包含大量无关信息,而且很少可以将重要结果排在前列。   为了解决此问题,本文提出了基于语义的桌面搜索技术,从文件语义关系和搜索上下文两方面改进搜索结果排序。基于文件语义关系的桌面搜索技术利用RDF描述文件语义关系,从而为硬盘文件建立一个语义网络。基于文件语义网络,不但可以利用PageRank等算法对搜索结果按照重要度排序,提高搜索结果的查准率,而且还可以为用户提供与查询内容相关但是不包含搜索关键字的信息,从而提高搜索结果的查全率。基于上下文的桌面搜索技术,则利用隐含马尔可夫模型建模搜索上下文。在隐含马尔可夫模型中,搜索上下文作为固定状态,搜索结果作为观察值序列。按照观察值序列的出现概率对搜索结果进行排序,可以提前显示与上下文相关的搜索结果,从而提高搜索结果的查准率。   本文在Linux上的开源桌面搜索软件Beagle基础上,实现了基于语义的桌面搜索的系统原型。并模拟了不同的测试场景,比较了基于语义的桌面搜索与Beagle在不同测试场景下的返回结果。实验结果表明基于语义的桌面搜索技术可以提高搜索结果的查准率和查全率。  
其他文献
软件构件库是软件复用中管理可复用构件的基础设施,它为基于构件的软件开发(CBSD)中的构件生产和构件复用两方面工作之间建立了桥梁。构件库中的构件是来自软件生命周期各个阶
车载导航系统是卫星导航技术被应用于汽车导航领域的必然产物,它的发展与空间定位技术(GPS)、地理信息系统(GIS)、无线通信技术、计算机技术和电子技术的快速发展紧密相关的
本文针对上述的问题,通过对网络计算机/服务器系统结构的分析,提出了借助于基准参考系统进行性能评测的设计方案:用应用软件的显示时间作为网络计算机的性能指标来评测网络计算
为解决传统的门户导航网站和搜索技术在应对“信息过载”方面的缺陷,以“信息推送”为主要服务模式的个性化推荐系统应运而生,并被广泛使用在电子商务平台以及各类Web2.0应用中
考试是对学生所学内容、学习效果、知识能力水平进行了解的最有效方式,也能检验教师的教学效果,评价教学过程是否合理,以及指导下一步的教学计划。因此考试是教学中非常重要的一
本文研究了异构数据集成的相关理论和技术,对现有数据集成方法进行分析,采用Mediator/Wrapper方式并结合本体技术,设计了一种异构数据集成系统——HDIS(HeterogeneousDataIntegr
提出了一种新的基于转折指标量体系的混沌时间序列转折点(拐点)预测的理论模型。在该理论模型基础上提出了基于径向基函数(RBF)网络的非线性动力系统建模方法。利用混沌吸引
现场可编程门阵列(Field Programmable Gate Arrays,FPGA)以其可编程、高并行性、高集成度等优点,被广泛应用于通信、控制等领域。  然而,随着FPGA器件日益复杂和设计规模日益
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着通讯技术的发
随着网络技术和网络应用的发展,Internet的正常运转受到多种威胁。现有的网络安全防护技术和产品不能完全保证网络安全和信息安全。因此,安全审计作为一种事后技术,成为网络安全