基于决策算法的用户查询意图识别技术研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:dayongxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎作为一扇通往互联网高速信息的窗口,已成为广大网民日常生活中不可或缺的重要组成部分。搜索引擎的功能改进和性能优化一直以来都是业内研究的热点问题。未来搜索引擎会朝着智能化、可视化、多样化和个性化的方向发展,其中个性化发展趋势尤为明显。由于搜索引擎种类繁多,因此,抢占互联网用户,稳固市场份额,提供满足用户需求的个性化服务,已成为各大搜索引擎服务提供商的当务之急。   为用户提供个性化服务,需要识别隐藏在用户在线搜索行为背后的查询意图。然而,用户提供给搜索引擎的信息少之又少,关键在于如何借助有限的搜索资源,识别在线用户查询意图,以便于搜索引擎为用户提供最佳的个性化服务。   实际上,查询意图识别技术的本质是实现查询意图的分类,查询意图分类也属于分类技术的一种,它大体可以分为两个阶段:一是特征提取,二是分类操作。对于特征提取来说,查询本身的特征是非常有限的,所以需要借助其他资源来进行扩展。研究人员最常使用的扩展源就是搜索引擎的用户查询日志,查询日志反映了用户的点击行为,根据用户的点击行为可以抽取出有用的特征。本文在分析查询本身与用户点击行为的基础上,结合用户点击浏览的网页文档类别判断来进行特征的选取,再根据获取到的特征,来构造查询意图分类模型。   为实现用户查询意图识别的目的,本文开展的工作主要包括:   1、提出了本文的用户查询意图分类标准,将用户查询意图分为信息型和非信息型这两类进行研究;   2、提出了网页分类模型的构造,该分类模型能够对任意网页文档类型讲行判别,它在后面查询意图分类模型的构建中发挥了重要作用;   3、除了查询本身,借助Sogou实验室公开的用户查询日志分析用户点击行为,结合网页分类模型的分类结果来提取更多的特征项,并构造出查询意图分类模型;   4、利用查询意图分类模型实现对用户查询意图的识别,并通过实验结果的分析,证明该分类模型的有效性。   无论是上面的网页分类模型还是查询意图分类模型,它们的构造都是基于决策树分类算法实现的。因为决策树算法是数据挖掘领域中一种重要的数据分类算法,它是以实例为基础的归纳学习算法,以其易于提取显示规则,可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。因此,本文决定将改进后的决策树C4.5算法,应用到用户查询意图识别问题两分类模型的构造中去。   查询意图分类模型的使用,能够促使搜索引擎为用户提供个性化的服务,帮助搜索引擎服务提供商达到提高用户满意度的最终目的。
其他文献
脑血管疾病严重威胁着中老年群体的健康,随着年龄的增长,脑血管疾病的发生几率急剧上升。脑血管疾病的治疗需要花费大量金钱而治疗效果却往往不令人满意,不仅严重影响病人及
计算机网络的普及应用,丰富了人们的日常生活,然而,网络上的信息可以方便的复制和修改,使得版权保护成为一种迫切需要解决的问题。在地理信息系统(Geographic Information Sy
点云模型的数字几何处理已在计算机图形领域受到广泛的重视。基于点的图形学的研究在工业制造、考古及文物保护、医学和娱乐产业等诸多领域得到了广泛应用。   本文主要进
水下无线传感器网络(Underwater Wireless Sensor Network,UWSN)可用于海洋学数据收集、污染监测、近海探测、灾难防御以及协助海军进行战术跟踪等领域。与其他水下探测工具
中文分词及词性标注不仅是自然语言理解领域的难点问题,也是中文数学智能教学系统中的基础性问题。提高自动分词及词性标注的准确率,修正分词及词性标注的结果,能为实现小学
车牌识别是现代智能交通系统中的重要组成部分,它以数字图像处理、模式识别、计算机视觉等技术为基础,对摄像机所拍摄的车辆图像或者视频序列进行分析,得到每一辆汽车唯一的
传统的数据挖掘解决了海量数据贫乏知识的情况,但是传统的数据挖掘只适合于准确的数据,它没有考虑到数据的不确定性,然而不确定性是客观事物本身所固有的一种特性,数据挖掘如
随着互联网的飞速发展,互联网的应用也在快速普及,并受到了公众的认可和赞同。同时,互联网也渗透到我们每个人的生活中,网上交易购物,也变得越来越流行。由于互联网信息的种
在工业和农业领域,温度的测量已经成为保证设备正常运转和实验正常进行的重要指标。本文用ZigBee无线通信技术和基于ARM的嵌入式技术组建了无线温度监控系统。   ZigBee无
近年来,随着计算机及互联网技术的不断发展,对网络带宽要求较高的多媒体技术也得到了充分的发展,其中基于P2P流媒体技术成为了当前的热点研究问题。P2P网络的发展,为我们提供