【摘 要】
:
本文提出了一种在数据流中挖掘频繁闭项集的方法.应用定量更新滑动窗口策略,解决了批处理方法中时间粒度较粗的问题,结合时间窗口,对历史数据进行保存,能够支持对给定时间段内频繁闭项集的频繁计数进行查询.本文设计了CFIT数据结构,通过结点的ChildLinks能够快速检查本结点是否为频繁闭项集,降低了频繁闭项集挖掘算法的复杂性.通过TW-CFI算法可以对到来的事务进行定量处理,灵活适应数据流中的多变性.
【机 构】
:
燕山大学信息科学与工程学院,秦皇岛,066004
【出 处】
:
第二十三届中国数据库学术会议(NDBC2006)
论文部分内容阅读
本文提出了一种在数据流中挖掘频繁闭项集的方法.应用定量更新滑动窗口策略,解决了批处理方法中时间粒度较粗的问题,结合时间窗口,对历史数据进行保存,能够支持对给定时间段内频繁闭项集的频繁计数进行查询.
本文设计了CFIT数据结构,通过结点的ChildLinks能够快速检查本结点是否为频繁闭项集,降低了频繁闭项集挖掘算法的复杂性.通过TW-CFI算法可以对到来的事务进行定量处理,灵活适应数据流中的多变性.
最后,通过实验证明,算法的性能明显优于Charm算法,却低于FP-Stream算法,主要原因在于TW-CFI算法在更新操作时需对子结点进行查找,多次扫描CFIT,如何避免对CFIT的多次扫描,是改进本算法的关键.
其他文献
近年来,移动对象数据库得到了广泛的重视与研究,其技术在许多领域中展现了广阔的应用前景.然而,数据库中的移动对象的数目是非常巨大的,从性能方面考虑,在查询的时候应当避免检查每个对象,也就是说,需要对移动对象的位置信息进行索引.到目前为止,人们对移动对象的索引问题进行了大量的研究,其中代表性的成果主要有基于TPR树的移动对象时空轨迹索引方法.但其中大部分工作都是基于移动对象在二维空间的自由移动,在现实
随着软件开发技术的发展,构件化技术已成为开发软件的主流技术.构件化技术使得软件具有良好的平台兼容性、结构开放性、规模可变性、系统可配置性以及代码重用等能力.在基于构件的软件声明周期中,构件部署是非常重要的一环.构件的部署是指为了使软件最终能被用户使用,在软件开发完成后的所有行为,包括:构件的安装,配置,激活以及重配置,升级和卸载.本文在已有工作的基础上提出了一种支持上下文感知的构件部署框架,很好地
XML数据流上的XPath & XQuery查询处理是目前研究者关注的热点问题,但由于XPath & XQuery查询语言相对复杂,在不知道模式信息的前提下,用户很难通过已有的查询接口得到自己感兴趣的数据片断,因此如何在数据流模型上根据XML数据的特点为用户提供最友好的查询接口就成为一个亟待解决的问题.针对这个问题,创新地提出了在XML数据流上做关键字查询的问题,给出了最小相关连通子树(SRCT)
目前,大部分工作流实例迁移策略都存在同一时间内多个版本同时运行的情况.本文在自由选择工作流网模型的基础上提出了基于任务补偿的实例迁移策略,并给出了在多项式时间内验证自由选择工作流网的状态可达性算法.避免了动态变更错误及同一时间内多版本运行所造成的工作流管理混乱.论文仅对工作流的过程变更作了讨论.下一步工作将结合工作流变更中的资源分配状况变更、组织状况变更及数据流变更作进一步的深入研究。
一个工作流模型,其正确性、有效性以及性能效率等都是受人关注的.一个包含错误的工作流过程定义有可能会导致顾客的不满、处理出错等一系列问题;而定义的瑕疵则可能会引发服务效率低、存储容量超额等.所以,在工作流模型投入使用之前,对其定义进行分析是必须的.通常,把对工作流过程定义的分析划分成两种:一种是分析模型能否达到预设的性能要求;另外一种是验证模型是否满足需求,流程定义是否正确.前者一般通过系统仿真技术
人力资源作为工作流中任务的参与者和执行者,对工作流的运行起到举足轻重的作用,因此,"什么人做"这个问题一直以来都是非常值得关注的研究方向,而资源分配恰恰是为了解决这个问题而存在的.本文将从一个新的角度对传统的资源分配策略进行扩展,使其更趋于人性化和合理化。
面对快速变化的市场需求,基于Internet的企业经营活动必须以动态和灵活的策略作为立足之计,同时流程的应用模式也由面向企业用户逐渐转向面向普通用户.这就要求业务经营活动不仅要基于固定特有的业务流程,还要基于能够适应多样需求变化的、动态灵活的业务流程.传统流程管理的研究主要侧重流程的定义、动态生成与修改方面,如动态工作流技术,基于Web服务组合的研究,基于Agent的流程建模的研究等.对流程的研究
作为信息交换和发布的标准数据格式,近年来XML在商业和科学研究等领域得到了越来越多的应用.XML文档通常被建模成一棵有序树Td,而由XML查询语言(如:XQUERY)所表示的查询请求也可以被建模成一棵查询树Tq,所以XML文档的查询问题可定义为树的匹配问题.其中,XML树中兄弟结点前后排列顺序确定的查询称为有序查询,相反,兄弟结点前后排列顺序无关的查询为无序查询.当用户对XML文档的任何信息未知时
从Web-log中挖掘邻近序列模式,对于预测用户将来的访问请求、改善网站结构、设置广告页面等有着重要的意义.在本文中我们提出了一种挖掘邻近序列模式的高效算法CSP-mine,与OB-mine算法相比,CSP-mine算法不需要拆分访问路径树并且不需要构造BT树和递归合并BT树就能挖掘出邻近序列模式,减少了时间和空间消耗.下一步要做的工作是用实验验证我们的结论.CSP-mine算法还不能增量式挖掘邻
离群数据挖掘与分析在许多领域的重要性已经日益体现,特别在安全领域对此项技术的实时性要求较高,而离群对象的关键域子空间对于进一步分析数据对象的离群原因具有指示作用,因此如何更快地获取离群数据集的关键域子空间成为一个十分重要的研究内容.本文以探索性数据分析方法为基础,通过分析数据对象个体离群与其属性值离群之间的关系,提出了一种高效实用的关键域子空间实时搜索算法RSKAS,实验证明,这种方法对于问题规模