论文部分内容阅读
搜索引擎作为一扇通往互联网高速信息的窗口,已成为广大网民日常生活中不可或缺的重要组成部分。搜索引擎的功能改进和性能优化一直以来都是业内研究的热点问题。未来搜索引擎会朝着智能化、可视化、多样化和个性化的方向发展,其中个性化发展趋势尤为明显。由于搜索引擎种类繁多,因此,抢占互联网用户,稳固市场份额,提供满足用户需求的个性化服务,已成为各大搜索引擎服务提供商的当务之急。
为用户提供个性化服务,需要识别隐藏在用户在线搜索行为背后的查询意图。然而,用户提供给搜索引擎的信息少之又少,关键在于如何借助有限的搜索资源,识别在线用户查询意图,以便于搜索引擎为用户提供最佳的个性化服务。
实际上,查询意图识别技术的本质是实现查询意图的分类,查询意图分类也属于分类技术的一种,它大体可以分为两个阶段:一是特征提取,二是分类操作。对于特征提取来说,查询本身的特征是非常有限的,所以需要借助其他资源来进行扩展。研究人员最常使用的扩展源就是搜索引擎的用户查询日志,查询日志反映了用户的点击行为,根据用户的点击行为可以抽取出有用的特征。本文在分析查询本身与用户点击行为的基础上,结合用户点击浏览的网页文档类别判断来进行特征的选取,再根据获取到的特征,来构造查询意图分类模型。
为实现用户查询意图识别的目的,本文开展的工作主要包括:
1、提出了本文的用户查询意图分类标准,将用户查询意图分为信息型和非信息型这两类进行研究;
2、提出了网页分类模型的构造,该分类模型能够对任意网页文档类型讲行判别,它在后面查询意图分类模型的构建中发挥了重要作用;
3、除了查询本身,借助Sogou实验室公开的用户查询日志分析用户点击行为,结合网页分类模型的分类结果来提取更多的特征项,并构造出查询意图分类模型;
4、利用查询意图分类模型实现对用户查询意图的识别,并通过实验结果的分析,证明该分类模型的有效性。
无论是上面的网页分类模型还是查询意图分类模型,它们的构造都是基于决策树分类算法实现的。因为决策树算法是数据挖掘领域中一种重要的数据分类算法,它是以实例为基础的归纳学习算法,以其易于提取显示规则,可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。因此,本文决定将改进后的决策树C4.5算法,应用到用户查询意图识别问题两分类模型的构造中去。
查询意图分类模型的使用,能够促使搜索引擎为用户提供个性化的服务,帮助搜索引擎服务提供商达到提高用户满意度的最终目的。