闪存数据库系统存储和索引技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:itcrasher9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几十年里,磁盘一直是最常用的存储介质。然而,随着电子技术的快速发展,嵌入式系统、航空航天等应用领域对数据存储提出了远远超出磁盘存储能力的需求。在这种背景下,闪存技术应运而生。闪存是一种高速、低功耗、抗震、小巧轻便的存储介质。随着越来越多的电子设备直接用其来存储大量的数据,并基于此开发各种复杂的数据应用。由此带来的新问题是“如何有效地存储、组织、管理和使用闪存中的数据”。  目前,数据管理的主流技术是数据库技术。因此,采用数据库技术来存储和管理闪存中的数据是目前首选的途径,即建立“闪存数据库系统”(Flash-BasedDatabase Systems)。目前已有的研究工作主要是针对闪存数据库的存储、索引、和缓冲区管理方面。(1)存储和索引。根据处理方法不同,主要分为三大类:块映射机制、基于FTL的存储索引技术和纯闪存存储索引技术。已有的存储和索引技术都不能从根本上消除闪存低下的随机写性能。(2)缓冲区管理。闪存读写代价不对称的特性则决定了其必须采用不同于一般磁盘存储的缓冲区置换策略。目前的方法都是基于简单的读写优化,并没有针对上层的查询处理和事务处理进行设计。  本文的工作主要从闪存和固态硬盘的特性出发,以优化其写性能为基础,分别在存储、索引和缓冲区管理上展开深入的研究。本文的主要贡献如下:  (1)固态硬盘随机写优化技术。固态硬盘低下的随机写性能成为固态硬盘进一步广泛应用的性能瓶颈。针对这一问题,本文提出了针对静态随机写序列和动态随机写序列的写优化方法。  静态随机序列写优化方法:本方法首次通过将随机写转换为连续写来避免低下的随机写性能。本文将随机写序列排序之后,将序列中缺少的数据项从固态硬盘中读取出来,然后再插入该序列中,最终将随机序列转换为连续的序列。本方法同时提出了静态随机序列密度概念。当密度小于最小密度时,本文提出聚类的方法来提高写性能。在此基础上,通过最优写来改进静态写序列的转换策略,达到转换后的写序列代价最小。并且证明了转换优化方法为P时间复杂度,从而保证了系统的性能。  动态随机序列写优化方法:针对数据流上产生的动态随机写序列,根据粒度对带宽的影响,本文首先提出了最佳写粒度。在数据流上,本文提出长聚类的方法来选择子序列进行转换和写出。此外,利用固态硬盘内部的并发机制提高写性能。该方法将连续写序列进行划分,并将各划分段同时交替写入到固态硬盘中。在聚类的基础上,本文提出增益的概念。增益用来评价单个数据项转换后的性能提高。在此基础上,通过结合写粒度和增益,本文提出了数据项的写带宽的概念。写带宽能够准确地评价一个数据项的写出速度,从而选择最佳的写出项。该方法能够有效地提高数据流上随机写性能。  (2)纯闪存索引技术。由于闪存高昂的写操作代价,传统的基于磁盘的索引结构如果直接应用在闪存上会导致极差的更新性能。针对此问题,本文提出一种新颖的高更新性能的索引结构HF-tree,通过组提交、更新合并,以及多级延迟的方式来提高更新性能。HF-tree能够有效地克服闪存和现有基于磁盘的索引之间的不匹配性的问题。  (3)缓冲区管理技术。现有的基于磁盘的数据库系统并不能充分发挥闪存的高速IO性能,特别是事务处理。通过对事物处理中偷帧和非强制写页算法与闪存特性之间的分析,本文提出一种针对事务处理的缓冲区管理策略。在这种策略中,本文提出采用平均访问时间算法和日志写方法来提高IO性能。该方法不仅能够有效地克服传统数据库在闪存上的不足,而且能够针对事物处理充分发挥闪存的高速IO性能。此外,该方法还能够提高闪存的使用寿命,并且维护磨损平衡。  在研究的基础上,本人还开发闪存数据库系统。根据本文的随机写优化算法,数据库系统随机写性能得到了极大的提高。在数据库系统中,可以选择将各种测试集运行在各种数据库上,从而获得性能的比较。此外本人还将数据库测试过程进行了可视化,提供了测试过程的重放机制,形象地展示了数据库的性能。  综上所述,本文对闪存数据库的存储、索引和缓冲区管理进行了研究,针对其问题,从高效性和可用性上提出了创新性的解决方案,达到了预期的目的。
其他文献
嵌入式系统越来越应用在工业和人们的日常生活中,包括工业控制、汽车、家用电器等。软件的可靠性是嵌入式系统的重要特性之一,也是具有挑战性的研究课题之一。本文研究了一种可
随着Web2.0的发展,在信息融合领域出现了Mashup这样的技术,作为Web2.0时代的一种新的Web应用,它可以允许用户方便的把各种数据源和服务混合在一起来创建新的应用程序,应用程序能
随着互联网和信息化进程的逐步发展,信息的数量和种类每天都在以惊人的速度增长。由于互联网信息的不断丰富,很多Web应用往往不能迅速跟进大量信息衍生及业务模式变革的脚步,
社区结构是许多实际复杂网络的一个重要特征,寻找和分析社区结构有助于更好地了解网络的结构。近年来,随着复杂网络研究的兴起,研究者发现软件网络中存在复杂网络特性,为软件
图形用户界面自从在操作系统中出现以来就一直占据着非常重要的位置,然而,由于软硬件磨合等因素,国产龙芯处理器上的图形性能显得不尽如人意。为了改善龙芯平台上的图形性能,本论
近年来,计算机及互联网技术的迅猛发展也带来了计算机犯罪率的飞速增长。打击犯罪的关键在于获得充分、可靠和强有力的证据。而计算机犯罪的证据与传统证据相比更容易丢失、删
SIP是当今主流多媒体通信应用层控制协议,SIP通信系统采用C/S网络架构,各用户之间的媒体流都需SIP媒体中继服务器来路由,这就使得系统负载过于集中,极易出现“性能瓶颈”。P2
为了有效整合独立运行的分散异构的应用系统,消除“信息孤岛”,企业建立了数据交换平台。然而,由于信息化建设的时间跨度比较大、缺乏整体的规划,企业可能建立很多数据交换平
为了简化证书管理,Shamir于1984年提出了基于身份的密码学概念。近年来,基于身份的密码学已成为密码学领域的研究热点,许多基于身份的密码系统被相继提出。数字签名由于其所具有
一体化网络测井处理解释软件平台[1]是一套支持网络的并完全采用面向对象思想设计的大型测井综合应用软件系统。平台的设计原则兼顾开放性、先进性和平台无关性,采用开放的Jav