基于连续模式的OLAP查询日志挖掘及推荐

来源 :浙江大学 | 被引量 : 0次 | 上传用户:weistiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库(Data Warehouse,DW)及商业智能(Business Intelligence,BI)技术的快速发展,使得基于数据仓库的联机分析处理(Online analytical processing,OLAP)工具得到广泛的应用。然而数据仓库复杂性的提高使用户通过OLAP浏览和分析多维数据的过程变得越来越繁琐。面对海量数据,用户通常不能确定其下一步查询是什么。   为了提高用户运用OLAP工具进行查询分析的效率,将查询推荐技术引入OLAP领域。本文重点研究OLAP领域下的查询推荐技术,提出了基于连续模式的OLAP查询日志挖掘及推荐方法。本文的主要研究工作和贡献如下:   1)完善了从日志文件中提取用户操作序列的方法。当日志文件中出现后一条查询语句是前一条查询语句经过多步基本操作形成时,能记录每一步基本操作,从而为后续模式挖掘提供准确的训练数据;   2)提出连续查询模式挖掘(Continuous Query Pattern Mining,CQPM)算法。通过频繁模式挖掘,将查询序列抽象成连续查询模式,大幅度减少了冗余查询序列,提高后续推荐的效率;   3)提出基于查询后缀树的模糊查询模式匹配(Approximate Query PatternMatching,AQPM)算法。该算法在连续查询模式中寻找匹配当前查询序列的下一步有效查询,减少了搜索过程的复杂度,提高推荐的准确度;   4)开发了带有推荐功能的OLAP工具。该工具中,本文提出的查询推荐方法被封装为模块,嵌入到Mondrian引擎中,改善了用户OLAP体验。通过8名OLAP分析人员在该工具下的查询日志对本文提出方法进行性能评价,实验结果表明,相较基于prefixspan的改进算法,采用CQPM算法能去除数量庞大的冗余的查询模式,AQPM算法较基本的前缀匹配算法提高了推荐的准确率。
其他文献
目前国内外城市的公共交通均以地面交通为主,随着经济的快速发展,交通拥堵现象和日益增长的交通事故引起了国内外社会的广泛关注,为此越来越多的学者开始研究智能交通。智能交通
本文是以全国计算机信息高新技术考试(OSTA)为背景,开发相应的在线考试系统项目,结合办公自动化应用技能水平测试需要,利用教学单位现有教学资源,使用计算机技术和网络自主设
Web2.0的兴起吸引了越来越多的因特网用户,电子商务和论坛在这一平台上得到了长足的发展。在线购物网站和产品论坛中积累起海量的产品评论。产品的潜在用户希望从中获取有价
集合选择是分布式信息检索过程中的重要一环,其在尽量不影响检索效果的情况下,选择和查询相关度高的部分集合进行检索。目前大多数集合选择算法根据主要通过集合的静态统计信息
最近几年,我们可以看到,社区问答系统中的用户数量正呈现出高速增长的态势。社区问答系统给用户提供了一个发布问题以及寻找答案的平台,而这个广大的平台中所包含的海量的问
近年来,我们进入了数据爆炸时代,随着数据的增长以及数据存储能力的增强,使得我们可以获得形式各异的数据源并将其存储于信息库中。通过对信息库中存储的数据进行分析挖掘,可
自动信任协商是通过协商机制来实现开放式环境中陌生方之间的信任建立。协商机制的核心内容包括访问控制策略和协商策略,现今它们存在的主要问题有:访问控制策略规则过于复杂可
随着网络的普及,越来越多的人们使用网络这个平台保存和获取数据,实现了知识的共享。然而,这种共享所面临的困难是如何在海量的数据中快速而准确的查询到自己所要的知识。问答系
作为数据挖掘的重要研究方向,图序列社区挖掘在社交网络等实际问题中有着广泛应用。如何精确地获得图序列中有价值的信息,以及如何加快算法在大规模数据集上的速度尤为关键。现
随着宽带多媒体网络的不断发展,各种宽带网络应用层出不穷。IPTV、视频会议、数据和资料分发、网络音频应用、网络视频应用、多媒体远程教育等宽带应用都对现有宽带多媒体网