基于滑动窗口的数据流压缩技术及聚类处理方法

来源 :第二十三届中国数据库学术会议(NDBC2006) | 被引量 : 0次 | 上传用户：a574150767

【摘要】

：

【作者】

：

曾勋卢艳民陈红

【机构】

：

中国人民大学信息学院,北京,100872

【出处】

：

第二十三届中国数据库学术会议(NDBC2006)

【发表日期】

：

2006年11期

【关键词】

：

滑动窗口数据流压缩聚类处理数据流模型网络服务器 SWCLZW压缩 ASWCLZW压缩

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年来,数据流模型逐渐受到人们的关注,其应用主要是针对海量的流数据应用,如通讯中的电话记录、网络服务器产生的日志文件、网络入侵监测、金融市场的证券交易等等.与传统数据形式不同,数据流的特点是无限、连续和数据到达的速度未知,数据流中的对象必须按照其流入的顺序进行存取并且只能在有限的资源(内存,磁盘)下对数据读取一次(或有限的几次),因此,在不断变化的数据流上进行聚类分析就变得更加困难和富有挑战性. 本文提出利用压缩方法来减少滑动窗口对内存的需求,提出数据流上的SWCLZW和ASWCLZW压缩方法,同时,给出了在压缩数据流上进行查询的过程.通过实验和理论分析表明,压缩方法能在一定条件下减小滑动窗口的存储空间.但是,在数据流冗余信息很小或者查询涉及的聚类属性很多时不适合通过数据流压缩来减小其内存需求。

其他文献

一种基于定量更新滑动窗口频繁闭项集挖掘算法

本文提出了一种在数据流中挖掘频繁闭项集的方法.应用定量更新滑动窗口策略,解决了批处理方法中时间粒度较粗的问题,结合时间窗口,对历史数据进行保存,能够支持对给定时间段内频繁闭项集的频繁计数进行查询.本文设计了CFIT数据结构,通过结点的ChildLinks能够快速检查本结点是否为频繁闭项集,降低了频繁闭项集挖掘算法的复杂性.通过TW-CFI算法可以对到来的事务进行定量处理,灵活适应数据流中的多变性.

会议

定量更新滑动窗口频繁闭项集挖掘数据流挖掘CFIT数据结构

数量关联规则发现中的最近邻聚类方法研究

本文讨论数量关联规则挖掘过程中连续属性离散化问题,结合k度完全的思想合并和分裂传统的最近邻聚类算法的结果来离散化连续型属性,这种方法既考虑数据稀疏性,体现数据的真实分布,又结合关联规则本身的特点重新调整改善聚类结果,有效降低出现过小支持度和过小置信度的可能,对于数量关联规则挖出有效的规则有重要的应用价值,当然,类间距离的阈值不好确定,还有待进一步研究。

会议

Boolean属性关联规则挖掘最近邻聚类连续属性离散化

一种分级统计OLAP模型的研究与应用

联机分析处理(OLAP)系统是数据仓库主要的前端支持工具,它给用户提供了交互的、多维的、多角度的数据结果展示方式.数据仓库一般存储了大量历史数据,因此如何通过建立有效的OLAP模型、有效地实例化数据立方体(Cube)来提高OLAP系统查询响应速度是近年来数据仓库领域研究的一个热点.然而对于一些特殊需求的OLAP分析来说,依靠现存的OLAP构建模型无法对Cube进行预先实例化.例如,业务需要对w度量

会议

联机分析处理数据仓库分级统计动态分级查询预分级Cube

基于答案结点的XML文档模糊检索排序模型

本文针对普通用户自然语言提出查询请求,结合XML文档检索的新特征,分析了XML文档中自然语言查询的模糊内容和结构检索结果排序的影响因素.充分利用答案结点的逻辑意义完整性,在追求查准率的前提下力求提高查全率,主要表现在以下三个方面:(1)从自然语言查询中抽取路径信息的模糊处理;(2)利用预设答案结点解决查询粒度过小的问题(内容放松);(3)模糊路径匹配(即结构放松)。

会议

XML文档答案结点模糊检索排序模型自然语言查询模糊路径匹配

分布偏斜的流数据上的一种直方图维护算法

数据流具有快速、大量、连续、随时间变化等特性,使得流数据无法完整地保存在存储介质中.而复杂的聚集计算需要对数据进行多趟扫描来获得精确查询结果,这在数据流的处理上造成了很大的困难.因此在用户接受范围内,使用一趟算法获得一个近似的聚集结果的技术就成为了研究热点.直方图在数据流处理中通常用于保存大纲数据结构.目前许多数据流管理原型系统中多采用直方图、小波变换、数据写生、随机抽样等方法来保存大纲数据.直方

会议

流数据直方图维护分布偏斜聚集处理数据集中模型

基于PostgreSQL的执行计划缓存研究与实现

执行计划缓存的主要功能避免相同查询的重复优化.当前的三大主流商业数据库中都支持执行计划共享.SQL Server将SQL或T-SQL执行计划保存到过程缓存中.Oracle将查询执行计划保存到库缓存中,通过V$LIBRARYCACHE动态性能视图可以查看库缓存使用情况.DB2将查询执行计划保存到全局包缓存pkgcachesz中.本文以PostgreSQL为基础,构建了一个可运行、可验证的原型系统.在

会议

执行计划缓存PostgreSQL原型系统字符串匹配全局包缓存

传感器网络中基于动态线路的连续查询处理

随着传感器技术、与低功耗无线通信技术的发展,生产具备无线通信以及信息处理能力的微型无线传感器已成为可能.由于传感器节点能量有限,因此如何在尽量减少能量消耗,是目前连续查询面临的一大挑战.本文提出了一种基于动态线路的连续查询处理(Adaptive Itinerary based Window Query Execution)的方法.将查询区域划分成一些小的子区域;从子区域中挑选代表节点;相邻子区域内

会议

传感器网络动态线路连续查询处理查询区域节点剩余能量

Web数据库架构自动生成实现研究

Rails框架是一个非常新、令人兴奋的Web程序自动生成框架.该框架在Web社区中已经引起了人们相当的兴趣.它的核心架构虽然仍然遵循在J2EE中发现的基本模式,但由于建立框架时采用了许多命名习惯自动生成简洁、清楚的代码而不是配置文件,所以可以说Rails动了J2EE的奶酪已经成了不争的事实.在数据库方面,Rails框架的默认的CRUD等行为可以简洁到只需要一行代码.这种无编码的实现CRUD型的应用

会议

Web数据库自动生成Rails框架Web程序对象关系映射

基于MDA的关系数据库的设计与实现

Model-Driven Architecture(MDA)是由OMG组织于2001年2月提出的用模型技术进行软件系统开发的方法和标准体系,它代表了现代软件开发理论与方法发展的主流趋势.可以预见它会成为继面向对象技术后软件工程史上又一个里程碑.MDA的核心思想是,首先为企业商业应用建立独立于实现技术的平台无关模型(platform-Independent Model,PIM),再通过映射方法将平台

会议

关系数据库MDA软件开发映射方法可移植性

数据流滑动窗口连接上的卸载技术的研究

数据流的应用,例如网络监测、在线实时交易分析、入侵检测、传感器网络等为现有的传统数据库系统带来了很大挑战.与以往固定容量的数据集不同,无界且连续的数据流需要特殊的处理技术.在数据流处理领域的研究已经取得了可观的进展.比较著名的数据流系统有Aurora,STREAM,NiagaraCQ以及TelegraphCQ.对于处理连接(join)这一常用的操作符来说,由于流的无界性,将一个流中的每个元组和另一

会议

数据流滑动窗口连接操作符卸载策略过载数据流

基于滑动窗口的数据流压缩技术及聚类处理方法

其他学术论文