生物压缩数据库工具的开发与应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lyun888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在取得人类基因组完整序列的近十年中,各类大规模生物组学研究方法已渗透到了现代生物学研究的各个方面。而由这些技术所带来的海量高维数据已使得现代生物学越来越趋向于一种针对大规模实验数据进行建模、解释并加以应用的信息科学。在这样一个学科发展的背景下,对各种生物数据的处理与保存就显得尤为重要。目前,一些海量且稳定的生物数据的储存与共享一般利用常规文本文件,如生物序列的FASTA文件,数据自身的冗余进行压缩的方法来处理。但是,此处理在实现节约数据空间的同时,却造成了各种数据在操作上的困难。如需要对数据进行提取、搜索或整合等。为此我们针对生物数据设计了一种压缩数据库模型,并通过编写生物数据储存与管理工具——GZQ(Gene Zip Query Tools)来实现对于压缩数据的各项基本操作。GZQ数据库的主体设计思想是对生物数据文件中的不同数据项的内容进行独立的分块压缩操作,并可以根据数据的具体特性,选择合适的数据块组织方式与压缩方法。同时,通过结合使用GZQ工具中的压缩模块(compressor)、索引模块(indexer)与查询模块(querymodule),我们可以在获得更小的文件体积与创建速度的同时,进行多种快捷的数据搜索及任意数据提取的操作。另外,GZQ工具还提供了用于解析与输出不同文件格式的视图模块(viewmodule)及相关的视图格式的定义。
其他文献
活性炭测氡法是一种静态、放射性累计氡气测量方法,广泛应用于地球物理勘探领域。该方法操作简单、灵敏度高、抗干扰性强,实施成本低,非常适合实际野外勘探使用,尤其在矿产(
变化发现是地理信息更新的重要环节之一。以纸质地图、汇总表为依托的地理空间信息标报是目前空间变化发现的一种重要手段,但其采用手工标绘,存在效率低、上报汇总周期长、互动性差、无法调度各级专业人员和广大公众参与等问题,难以满足信息化条件下地理信息动态更新对变化发现的高时效性要求。将网络化手段用于变化标报是信息化条件下地理信息变化快速发现的一条可行途径。为此本文研究了面向标报的变化轮廓线分类与重构方法、顾
高粱是重要的禾谷类作物,仅次于小麦、水稻、玉米、大麦,在世界禾谷类作物中位居第五位。高粱具有产量高,耐旱,耐涝及抗盐碱等不良环境的特性。高粱丝黑穗病是高粱的一种重要的病
植物对盐胁迫的适应是一个非常复杂的过程,如何提高作物的耐盐性仍然面临着极大的挑战。对植物在受到盐胁迫时所作出的反应进行分析,寻找植物基因组中与耐盐相关的基因,进一
在我国西北干旱、半干旱地区,绿洲城镇的发展在西北区域经济发展中至关重要。但是在发展初期大量不合理的经济行为和活动使得新疆一些绿洲城镇的生态环境遭到了严重破坏,生态