生物压缩数据库工具的开发与应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：lyun888

【摘要】

：

在取得人类基因组完整序列的近十年中,各类大规模生物组学研究方法已渗透到了现代生物学研究的各个方面。而由这些技术所带来的海量高维数据已使得现代生物学越来越趋向于一

【作者】

：

王一钦

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2010年期

【关键词】

：

生物数据 GZQ数据库分块压缩索引方法查询技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在取得人类基因组完整序列的近十年中,各类大规模生物组学研究方法已渗透到了现代生物学研究的各个方面。而由这些技术所带来的海量高维数据已使得现代生物学越来越趋向于一种针对大规模实验数据进行建模、解释并加以应用的信息科学。在这样一个学科发展的背景下,对各种生物数据的处理与保存就显得尤为重要。目前,一些海量且稳定的生物数据的储存与共享一般利用常规文本文件,如生物序列的FASTA文件,数据自身的冗余进行压缩的方法来处理。但是,此处理在实现节约数据空间的同时,却造成了各种数据在操作上的困难。如需要对数据进行提取、搜索或整合等。为此我们针对生物数据设计了一种压缩数据库模型,并通过编写生物数据储存与管理工具——GZQ(Gene Zip Query Tools)来实现对于压缩数据的各项基本操作。GZQ数据库的主体设计思想是对生物数据文件中的不同数据项的内容进行独立的分块压缩操作,并可以根据数据的具体特性,选择合适的数据块组织方式与压缩方法。同时,通过结合使用GZQ工具中的压缩模块(compressor)、索引模块(indexer)与查询模块(querymodule),我们可以在获得更小的文件体积与创建速度的同时,进行多种快捷的数据搜索及任意数据提取的操作。另外,GZQ工具还提供了用于解析与输出不同文件格式的视图模块(viewmodule)及相关的视图格式的定义。

其他文献

基于GIS的活性炭测氡数据库可视化管理系统开发与实现

活性炭测氡法是一种静态、放射性累计氡气测量方法,广泛应用于地球物理勘探领域。该方法操作简单、灵敏度高、抗干扰性强,实施成本低,非常适合实际野外勘探使用,尤其在矿产(

学位

活性炭测氡可视化ArcGIS数据库管理系统

面向更新的网络化空间标报模型研究

变化发现是地理信息更新的重要环节之一。以纸质地图、汇总表为依托的地理空间信息标报是目前空间变化发现的一种重要手段,但其采用手工标绘,存在效率低、上报汇总周期长、互动性差、无法调度各级专业人员和广大公众参与等问题,难以满足信息化条件下地理信息动态更新对变化发现的高时效性要求。将网络化手段用于变化标报是信息化条件下地理信息变化快速发现的一条可行途径。为此本文研究了面向标报的变化轮廓线分类与重构方法、顾

学位

地理空间信息标报空间变化发现变化轮廓线目标重构空间型博客多级访问控制网络化技术

高粱抗、感丝黑穗病生理机制的研究

高粱是重要的禾谷类作物，仅次于小麦、水稻、玉米、大麦，在世界禾谷类作物中位居第五位。高粱具有产量高，耐旱，耐涝及抗盐碱等不良环境的特性。高粱丝黑穗病是高粱的一种重要的病

学位

高粱丝黑穗病抗病品种生理机制

西那卡塞治疗继发性甲状旁腺功能亢进患者2例

会议

治疗继发性甲状旁腺功能亢进

尿毒症维持透析患者自体动静脉内瘘闭塞发生原因分析

会议

尿毒症透析患者自体动静脉内瘘闭塞