时序数据库内存压缩技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chenglin229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据无处不在,数据量庞大。如何高效地收集、存储和分析是时序数据库的常见问题,尤其是在工业级物联网以及数据中心监控中。由于磁盘IO的限制,最近的各种研究开始使用内存作为缓存,在内存中组织和缓存最新的数据,提高吞吐性能并提供实时查询。内存存储效率成为影响系统可伸缩性和成本效益最重要的因素。然而,大型复杂系统通常会生成高维度和高动态时序数据。例如,在字节跳动的数据中心的监控系统中,每天性能监控和业务监控产生的时间序列总数量超过一百亿,每秒钟产生数千万数据点,并且每年还在不断增加。存储和管理如此大规模的时序数据库不仅需要存储大量的数据点,还需要维护大量元数据,消耗了大量内存。此外,还需要对元数据进行有效索引以支持在高维度和动态时间序列中进行有效查询,进一步加剧了元数据的内存消耗。为了解决这些问题,提出了一种时序数据内存双阶段压缩方法TSDSC(Time Series Dual-Stage Compression),可以有效压缩大规模时序数据,并提供高效查询。与传统的内存存储将内存数据保存在单一的整体数据结构不同,TSDSC将内存划分为两个区域:动态缓冲区和静态压缩区。动态缓冲区采用写优化的存储结构,用于处理单个数据的写入,定时压缩合并写入静态压缩区。静态压缩区采用高效的内存布局和压缩算法,提高内存的使用效率。利用静态压缩区不变的原理,TSDSC设计了一种高效的压缩算法来压缩元数据和数据点,同时还能提供高效的时序查询。TSDSC还设计了一种数据转换策略,能减少数据转换和压缩过程对于写入速率和查询延时的影响。最后,基于TSDSC架构设计并实现了内存时序数据库Byte Series,并通过一系列的实验验证Byte Series的性能。首先验证了不同组件和转换策略的性能,然后将Byte Series与其他内存时序数据库进行比较,最后评估了Byte Series在字节跳动的生产环境数据上的性能。实验结果表明,Byte Series能够有效的压缩元数据,提高内存利用率,同时还能提供有效的写入速率和高效的时序查询。
其他文献
背景转录组中信使RNA(message RNA,m RNA)及长链非编码RNA(long non-coding RNA,lnc RNA)表达水平的变化及转录后的可变剪接(alternative splicing,AS)调控机制已被证实在胶质母细胞瘤(glioblastoma multiforme,GBM)发生和进展的过程中发挥重要作用。我们研究的目的是采用生物信息学方法,系统的分析识别与胶质母细胞
学位
知识图谱是描述真实世界中实体和概念以及它们之间联系的关系网络,利用知识图谱可以更好的查询复杂的关联信息,并且可以更精确的查出用户所需的信息。主流搜索引擎开始研究知识图谱并计划将知识图谱作为下一代搜索引擎的底层数据结构,现有的工作大多集中于分布式存储过程的数据结构设计和处理优化,但在负载均衡和图连接方面的研究仍需重大突破。面向大规模知识图谱的分布式查询系统应运而生。首先,设计了面向管理节点的抽象数据
学位
随着5G时代的到来,网络传输变得更加快捷和广泛,各行各业都进入了互联网的转型和升级阶段。相比与之前的移动互联网的大数据、移动互联时代,目前在智能家居、无人车等各种物联网领域都有越来越多的流量和数据出现。消息队列作为一款中间件产品,它可以很好的用来解决各个终端之间的消息传递、转发的问题,同时也支持系统内部各个进程或模块之间的消息交流,在系统设计中有广泛的应用。针对于云加密系统场景下,这里设计了一款支
学位
基于P2P网络的分散式存储系统是分布式存储的重要分支。传统分布式存储系统通常集中部署,具有高可信与易维护等特点,而构建于P2P网络之上的分散式存储系统则面临着节点低可信性与维护不确定性所引入的巨大可靠性风险。虽然可靠性可以通过增加冗余或加快修复速率等方式提升,但是同时也会造成系统成本的大幅攀升。针对上述问题,提出了一种分层的容错方法,将系统中的元数据与数据按体量与读写频率分层存储,并为每层数据设置
学位
随着信号环境的日趋多样化和复杂化,各个领域对阵列信号接收与处理的性能有了越来越高的要求,而动态范围往往是影响其是否满足高性能特性的一个重要因素。传统的提高动态范围的做法是改进系统内部组成电路的结构,或者是使用新型材料制成的器件,然而这些方法都或多或少的受到工艺或者成本的限制。因此在电路结构给定情况下,需要讨论一种合适的数据处理方式,使接收与处理过程表现出良好的动态性能。本文主要完成了以下研究工作:
学位
深紫外LED因在民用和军用领域有着广泛应用,近些年来得到广大研究学者的青睐。AlGaN是制备深紫外LED的常用材料,波长越短,Al组分的含量越高,器件欧姆接触的制备难度也随之急剧上升。高性能的器件需要高质量的欧姆接触,制备稳定可靠的欧姆接触是AlGaN器件成功应用的关键之一。本文针对高Al组分AlGaN材料的欧姆接触展开讨论,从理论到实验进行系统地详细研究。主要研究内容如下:(1)从理论上了解欧姆
学位
电控液晶微镜阵列作为一种加电调焦控光的微光学结构,区别于传统光学成像系统中使用多透镜组合执行机械调焦这一架构方式。基于液晶材料的电光特性,通过调节驱控电压信号实现电调焦电摆焦操作。具有小型化、可集成、响应快以及控光能力强等特点。在电控液晶微镜以及液晶显示器件中,通常需要在电极材料上涂覆聚酰亚胺膜并通过机械摩擦方式,在聚酰亚胺(PI)表面形成微纳凹槽,作为液晶材料的初始定向层而呈现功能化控光作用。通
学位
光场三维重建技术在工业生产、生物医学、人工智能等领域具有重大的研究意义和广泛的应用前景。条纹投影轮廓术因其非接触、系统简单、测量精度高、速度快等优点,成为结构光场三维重建的代表技术之一。传统的结构照明光场三维重建方法使用工业相机采集变形的条纹结构光场,工业相机采集光场时,需要精确设计相机参数并且机械调焦,且拍摄的图片景深小,如果对焦不准确会导致重建结果产生误差。针对这一问题,本文提出了一种使用光场
学位
量子点以其制备低成本、可调节带隙、高吸光系数、柔性基底兼容性以及多激子效应等众多优异的特性,在光电器件领域受到广泛的关注。目前,通过配体交换方法制备的量子点光电探测器存在暗电流比较大的问题,使得器件的整体性能偏低。原子层沉积技术(ALD)是一种表面自限制的薄膜沉积技术,其优势在于可进行高深宽比填充,沉积的薄膜拥有良好的均匀性及高度的致密性,厚度原子级可控。目前ALD应用于量子点光电探测器主要集中于
学位
已有研究表明,在语音感知中,语音时域包络和精细结构都能独立传递语音信息,但是没有人研究两者间是否具有协同作用,也不清楚听觉系统是否把两个方面的信息整合处理。这个问题,涉及到我们对听力障碍患者即使采用助听器却仍然出现语音感知障碍这个问题的理解和应对。因为,听力障碍患者的语音包络和精细结构因耳蜗的病变可能在耳蜗中的表达不再正常,两者之间也可能失去正常的匹配。为此,我们在语音时域包络与精细结构的匹配情况
学位