【摘 要】
:
随着近年来数据规模的爆炸式增长,数据去重和数据压缩作为削减数据冗余的两种关键技术,受到了更多的关注。和数据去重技术相比,数据压缩技术能够消除更多的数据冗余。在检测
论文部分内容阅读
随着近年来数据规模的爆炸式增长,数据去重和数据压缩作为削减数据冗余的两种关键技术,受到了更多的关注。和数据去重技术相比,数据压缩技术能够消除更多的数据冗余。在检测冗余数据的过程中,数据压缩技术一般采用“滑动窗口”的方式来限制查找范围,因此在相似数据相距较远从而超出滑动窗口的检索范围时,便没有机会削减这部分数据冗余。现有的迁移压缩算法通过基于相似数据块检测的数据置换操作,将相似的数据块集中存放到一起,使得传统压缩算法在有限的滑动窗口范围内检测出更多数据冗余的机会大大增加,从而改善其数据压缩率。然而,该算法仅针对单个文件内的相似数据进行处理,并且采用的是串行编程的思想,因此成为海量存储系统及传输网络数据压缩处理的瓶颈。为了解决这一问题,提出了一种并行迁移压缩算法。该算法一方面对迁移压缩算法中计算密集型的功能模块(数据分块、数据去重以及相似性检测)进行并行化和流水化的设计,以降低时间开销;另一方面采用非对称极值分块算法加速数据分块过程,引入数据去重技术来提高相似性检测的处理效率。与此同时,针对并行化设计所导致的重组压缩模块吞吐量严重下降的问题,提出了一种基于迁移文件谱的数据块预取策略,有效减少了分块重组过程中的磁盘等待时延,提高了重组压缩模块的吞吐量。实验结果表明,并行迁移压缩算法可以使传统压缩算法的压缩率提升65%~85%,同时有效降低整体的时间开销。
其他文献
序列模式挖掘是数据挖掘的一个重要分支,在金融通讯等领域应用中,序列模式挖掘发挥了重要的作用。虽然到目前为止,关于序列模式的挖掘算法已经相对成熟,但绝大部分算法都是面
工作流技术在软件开发领域得到了广泛的应用,基于工作流开发方式的软件同样需要软件质量控制体系来进行质量控制,而专门针对以工作流技术为开发方式软件的质量控制却鲜有研究。
自上个世纪90年代以来,面向对象的软件开发技术成为软件开发的主流技术,使得基于面向对象的软件复用被视为解决软件危机的一条现实可行的途径。按照复用的不同级别,软件复用
近年来,虚拟化应用场景日益增多,多用户拥有独立逻辑空间、共享后台资源,随着CPU计算资源和网络带宽资源大幅提升,存储资源逐渐成为性能瓶颈。固态盘(SSD)具有高性能、低能耗
面对海量数据,利用图计算或机器学习等具有迭代特征的复杂应用对其进行处理很常见。通过在迭代之间共享缓存数据,典型的分布式内存计算系统如Spark极大地提升了迭代程序处理
互联网的普及和电子商务的迅速发展造成了信息的过载,用户在大量的产品信息中难以找到需要的商品,由此,电子商务推荐系统应运而生。当前,电子商务推荐系统在实际运用中还不成
随着高性能并行系统的发展进步,并行计算的运用越来越受到广泛的重视,在并行计算性能提高需求增长的同时,I/O设备和CPU速度的增长率不匹配成为并行计算性能提高的主要瓶颈,所
随着J2EE技术大规模的应用,EJB技术受到广泛的质疑。EJB技术给J2EE应用开发带来了严重的复杂性和巨大的开销。降低J2EE的复杂性开始成为开发者的主要关注点。目前,在开源社区
随着信息时代的到来,各种电子文本数据急剧增加,如何对庞杂的数据进行有效的管理并快速的获取需要的信息,已成为一项亟待解决的重要课题。文本聚类和文本分类作为一个有效的