基于关联规则挖掘的查询扩展

来源 :河南大学 | 被引量 : 0次 | 上传用户:wp76155900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet信息资源的不断丰富,当用户使用搜索引擎检索信息时候会反馈大量无用的信息链接,因此,现有搜索引擎越来越不能满足人们查询的速度及准确度要求。由于用户浏览的网络日志记录着用户访问网页时的行为和网页信息,直接反映了用户使用网络的规则和兴趣,通过挖掘用户浏览网页的日志及其内容,可以提取用户的兴趣,根据用户的兴趣,建立描述用户的配置信息文件,在用户使用网络搜索引擎进行搜索时,参考用户的兴趣模型,对用户提交的查询词进行修正和查询扩展,提高查询词描述的准确度,并对查询结果根据用户使用网络的关联规则和用户兴趣进行重新排序,以便提高用户查询信息的效率。本文在对Web日志挖掘、关联规则挖掘、查询扩展等相关原理与技术分析的基础上,深入分析了客户端用户网络日志的挖掘和基于用户兴趣模型的关联挖掘提取等关键技术,具体研究成果如下:通过开发IE插件,在客户端收集用户浏览网页的行为及日志信息,分析用户的网络日志,挖掘用户访问网络的习惯,对用户访问的网页的URL进行挖掘分析,提取用户的兴趣类,并同时将Web内容根据其URL的描述特征进行分类,对相同类别的网页内容进行聚类分析,对分类集进行挖掘并提取用户的兴趣特征。根据用户兴趣特征及用户兴趣集,建立基于树状的用户兴趣模型,根据用户兴趣模型,对用户进行浏览网页的关联规则进行挖掘,挖掘其频繁项集。根据用户的兴趣模型和用户兴趣的短语特征集,在用户使用搜索引擎进行信息检索的时候,对查询词进行查询扩展,对搜索引擎反馈的结果根据用户浏览网页的关联规则频繁项集进行重新排序,提高用户查询信息的效率。
其他文献
分类是数据分析与机器学习领域的基本问题之一,国内外学者对分类算法的研究已有大量的成果。Logistic回归模型是一种应用最为广泛的多元量化分析技术,其特点是稳健性好,模型
本文通过对荣华二采区10
虚拟专用网VPN——Virtual Private Network,基于ISP(互联网服务提供商)所提供的公用网络的接入,通过采用数据加密技术和访问控制技术,在公用网络(主要是Internet)中建立专用
在教学过程当中,考试是现阶段衡量学校教学质量以及学生水平的最重要的手段之一。而试卷作为考试的载体,在教育教学过程中也起着相当重要的作用。传统的组卷方式一般是采用有经
A trajectory generator based on vehicle kinematics model was presented and an integrated navigation simulation system was designed.Considering that the tight re
本文通过对荣华二采区10
近年来,我国的建筑工程产业发展迅速,且为推动国民经济的发展做出了较大贡献。作为建筑工程施工材料的重要组成部分,木质工程材料的应用情况不仅关系着工程施工的效率,而且对于整
A novel multiple watermarks cooperative authentication algorithm was presented for image contents authentication.This algorithm is able to extract multiple feat
图像分割是图像处理和计算机视觉领域中的一个基本问题,其目的是把图像分成不同的部分,每一部分灰度是同质的。目前为止,已经提出许多图像分割方法,其中,基于偏微分方程的方
本文主要对Banach空间和Orlicz空间的一些点态性质和几何性质进行了研究。全文共分三章,主要研究如下:第一章是绪论,主要介绍了Banach空间和Orlicz空间理论的发展历史和背景,