一种分级统计OLAP模型的研究与应用

来源 :第二十三届中国数据库学术会议(NDBC2006) | 被引量 : 0次 | 上传用户:ali99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机分析处理(OLAP)系统是数据仓库主要的前端支持工具,它给用户提供了交互的、多维的、多角度的数据结果展示方式.数据仓库一般存储了大量历史数据,因此如何通过建立有效的OLAP模型、有效地实例化数据立方体(Cube)来提高OLAP系统查询响应速度是近年来数据仓库领域研究的一个热点. 然而对于一些特殊需求的OLAP分析来说,依靠现存的OLAP构建模型无法对Cube进行预先实例化.例如,业务需要对w度量进行分级统计,即通过设定w的不同取值区域范围将其划分为几个不同级别,如{A1,A2,…,An}={[a1,a2),[a2,a3),…,[an,an+1)}.需要统计各个级别内度量w的均值、出现频数等信息. 本文提出了一种分级统计OLAP构建模型,用于实现对度量值进行实时动态分级的OLAP统计查询分析,并详细介绍了模型的建立方法和对动态分级查询的回答策略.新模型的提出解决了传统方法对动态分级统计实现的不灵活性和无法对动态分级统计下的Cube进行预先实例化而造成查询性能过低等缺点.实验结果表明,新模型是一种高效地解决动态分级统计的方法.本研究今后的主要工作是在能够保证相对较高的分级统计查询性能的基础上,如何更进一步减小预先实例化的预分级Cube的数量,从而更进一步减小模型的空间开销.
其他文献
XML数据流上的XPath & XQuery查询处理是目前研究者关注的热点问题,但由于XPath & XQuery查询语言相对复杂,在不知道模式信息的前提下,用户很难通过已有的查询接口得到自己感兴趣的数据片断,因此如何在数据流模型上根据XML数据的特点为用户提供最友好的查询接口就成为一个亟待解决的问题.针对这个问题,创新地提出了在XML数据流上做关键字查询的问题,给出了最小相关连通子树(SRCT)
目前,大部分工作流实例迁移策略都存在同一时间内多个版本同时运行的情况.本文在自由选择工作流网模型的基础上提出了基于任务补偿的实例迁移策略,并给出了在多项式时间内验证自由选择工作流网的状态可达性算法.避免了动态变更错误及同一时间内多版本运行所造成的工作流管理混乱.论文仅对工作流的过程变更作了讨论.下一步工作将结合工作流变更中的资源分配状况变更、组织状况变更及数据流变更作进一步的深入研究。
一个工作流模型,其正确性、有效性以及性能效率等都是受人关注的.一个包含错误的工作流过程定义有可能会导致顾客的不满、处理出错等一系列问题;而定义的瑕疵则可能会引发服务效率低、存储容量超额等.所以,在工作流模型投入使用之前,对其定义进行分析是必须的.通常,把对工作流过程定义的分析划分成两种:一种是分析模型能否达到预设的性能要求;另外一种是验证模型是否满足需求,流程定义是否正确.前者一般通过系统仿真技术
人力资源作为工作流中任务的参与者和执行者,对工作流的运行起到举足轻重的作用,因此,"什么人做"这个问题一直以来都是非常值得关注的研究方向,而资源分配恰恰是为了解决这个问题而存在的.本文将从一个新的角度对传统的资源分配策略进行扩展,使其更趋于人性化和合理化。
面对快速变化的市场需求,基于Internet的企业经营活动必须以动态和灵活的策略作为立足之计,同时流程的应用模式也由面向企业用户逐渐转向面向普通用户.这就要求业务经营活动不仅要基于固定特有的业务流程,还要基于能够适应多样需求变化的、动态灵活的业务流程.传统流程管理的研究主要侧重流程的定义、动态生成与修改方面,如动态工作流技术,基于Web服务组合的研究,基于Agent的流程建模的研究等.对流程的研究
作为信息交换和发布的标准数据格式,近年来XML在商业和科学研究等领域得到了越来越多的应用.XML文档通常被建模成一棵有序树Td,而由XML查询语言(如:XQUERY)所表示的查询请求也可以被建模成一棵查询树Tq,所以XML文档的查询问题可定义为树的匹配问题.其中,XML树中兄弟结点前后排列顺序确定的查询称为有序查询,相反,兄弟结点前后排列顺序无关的查询为无序查询.当用户对XML文档的任何信息未知时
从Web-log中挖掘邻近序列模式,对于预测用户将来的访问请求、改善网站结构、设置广告页面等有着重要的意义.在本文中我们提出了一种挖掘邻近序列模式的高效算法CSP-mine,与OB-mine算法相比,CSP-mine算法不需要拆分访问路径树并且不需要构造BT树和递归合并BT树就能挖掘出邻近序列模式,减少了时间和空间消耗.下一步要做的工作是用实验验证我们的结论.CSP-mine算法还不能增量式挖掘邻
离群数据挖掘与分析在许多领域的重要性已经日益体现,特别在安全领域对此项技术的实时性要求较高,而离群对象的关键域子空间对于进一步分析数据对象的离群原因具有指示作用,因此如何更快地获取离群数据集的关键域子空间成为一个十分重要的研究内容.本文以探索性数据分析方法为基础,通过分析数据对象个体离群与其属性值离群之间的关系,提出了一种高效实用的关键域子空间实时搜索算法RSKAS,实验证明,这种方法对于问题规模
本文提出了一种在数据流中挖掘频繁闭项集的方法.应用定量更新滑动窗口策略,解决了批处理方法中时间粒度较粗的问题,结合时间窗口,对历史数据进行保存,能够支持对给定时间段内频繁闭项集的频繁计数进行查询.本文设计了CFIT数据结构,通过结点的ChildLinks能够快速检查本结点是否为频繁闭项集,降低了频繁闭项集挖掘算法的复杂性.通过TW-CFI算法可以对到来的事务进行定量处理,灵活适应数据流中的多变性.
本文讨论数量关联规则挖掘过程中连续属性离散化问题,结合k度完全的思想合并和分裂传统的最近邻聚类算法的结果来离散化连续型属性,这种方法既考虑数据稀疏性,体现数据的真实分布,又结合关联规则本身的特点重新调整改善聚类结果,有效降低出现过小支持度和过小置信度的可能,对于数量关联规则挖出有效的规则有重要的应用价值,当然,类间距离的阈值不好确定,还有待进一步研究。