基于查询分类的个性化检索系统研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:xingdeyanglina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是网络用户最常用的网络服务之一。用户通过向搜索引擎提交查询(Query)的方式获取与该查询相关的信息。由于用户的背景各不相同,即使他们输入完全相同的查询语句,其需求也可能是不同的。传统的搜索引擎并没有针对用户来设计查询的相关度算法,因此难以给出令每个用户满意的结果。目前人们提出通过个性化检索技术来解决这一难题。而查询分类是个性化检索中最具挑战性的关键技术之一。   本文通过对大规模真实中文查询语句的分析,提出使用VASE特征词的方法对查询所属的主题进行分类,并采用规则的方法对用户的意图进行自动识别,实验结果表明该方法能够有效地对查询主题和用户意图进行识别。   随后本文探讨了如何使用查询分类的结果进行个性化检索。基于用户的点击信息和查询类别,分别采用对查询结果进行过滤、次级关键词的提取以及对不同的查询意图采用不同的排序算法等三种策略对检索的结果进行改进。实验结果表明这些方法都取得了良好的效果。   最后,本文设计并实现了客户端个性化检索工具,以Firefox浏览器插件的形式,对用户输入的查询进行分类,并基于百度的搜索结果并为用户提供个性化检索的功能。  
其他文献
在网络环境中,计算机系统面临的安全威胁是复杂的、多样的和动态变化的,因而,计算机系统的安全需求具有复杂性、多样性和动态变化性等特点。研究表明,多安全策略访问控制是应对复
判定两个进程是否具有某种等价关系,是形式化验证的重要组成部分,很多种等价关系被定义出来以满足不同的验证需求,强互模拟等价和分支互模拟等价是其中两个重要的两种等价关系。
基于构件的软件复用是提高软件生产率和软件质量的有效途径,是解决软件危机的重要手段之一[1],而描述构件本质特征及构件组合的构件模型是实现构件复用的关键技术。   多语
在以静态网页为主的Internet上,网页的访问模式基本符合Zipf定律。Zipf定律是Web缓存和内容分发技术的理论依据,即可以用少量的资源满足大多数访问的请求。但是随着网络的不断
随着电子技术、计算机技术、多媒体技术的发展,数字图像的生成、处理、传输技术越来越成熟,涌现出大量的图像信息等待我们去研究处理。如何从图像数据库中找出我们感兴趣的图像
与IPv4网络的10亿多用户相比,IPv6网络的用户数量并不多,按照Internet中的Robert Metcalfe准则:一个网络的价值与它的节点数目的平方成正比。如果一个新的网络应用和服务没有绝
学位
互联网正朝着高速的方向发展,大规模E-Science科学工程中产生的海量数据传输等应用对网络传输性能提出了很高的需求,而传统TCP协议机制不能适应高速长距离网络(Fast Long Dista
学位
随着应用环境越来越复杂,对成本和性能的要求越来越高,包括一个或多个处理器系统(处理器及其外设)、多级互连总线、存储器和高速接口等模块的SoC设计已经成为IC设计的趋势。随
随着无线传感器网络相关技术的深入研究和快速发展,无线传感器网络的应用逐渐深入到人类生活的各个领域。考虑无线传感器网络的软件开发将面临的软件危机问题,把构件化的软件开
行业应用软件的开发大部分是一些定制化的工作,这种编程上手不难,因为它的本质是一种集成性的工作,但由于集成的对象和涉及的内容非常多,决定了它不只是一个技术性的问题,而且涉及