工业生物技术数据仓库ETL系统的设计与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:mqkxxmvo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“工业生物技术战略研究与知识环境建设”项目是中国科学院知识创新工程重要方向项目,它旨在通过整合国际与国内工业生物技术领域多类型的数据信息资源,为该领域的科研人员和决策机构构建一个规范化、数字化的战略研究环境。其子课题“工业生物技术数据仓库建设”是整个知识环境的数据支撑,而在数据仓库系统各个组成部分中,ETL是影响数据仓库系统成败与否的关键所在,ETL系统的开发也是整个数据仓库系统开发过程中工作量最大、耗时最长的部分。   本文首先介绍了数据仓库的原理,探讨了公共仓库元模型规范的意义及其对ETL过程提供的支持;分析了元数据在数据仓库中,特别是ETL系统中的重要作用。然后阐述了ETL的关键技术及研究现状,分析了当前流行ETL软件的特点及不足。在此基础上,针对现有ETL工具的局限性和本课题的实际需求,参考公共仓库元模型标准,提出了一个基于web的ETL服务器系统架构,讨论了系统各功能模块的设计和开发过程,分析并解决了系统中关键性的理论和技术难题。   本文设计的ETL服务器以MySQL作为存储服务器,使用Ruby On Rails框架编码实现,提供友好的web访问方式,通过定义转换任务来实现数据集成,具有高可靠性、高可用性、易扩展性和可维护性,并成功在实践中得到应用,基本验证了设计思想的正确性。
其他文献
机群I/O设备共享是机群管理的一个重要部分。目前占市场主流的基于纯软件系统实现机群I/O设备共享的方式在系统的跨平台特性,可扩展性,对服务器资源的占用等方面存在不足。随着
在Web和企业信息化等领域,XML已经被接受为一种标准的信息交换格式。XML的自描述,与平台无关的特性使得它被用作不同系统间通信的数据格式,如用于Web Services中SOAP消息的载体
星载计算机(On-Board Computer,OBC)是卫星中完成控制和计算任务的现代数字计算机系统,它是卫星综合电子系统的控制和管理中心,在民用和军用领域都发挥着重要作用。星载计算机对
自上世纪70年代关系数据库诞生以来,数据集成就一直是数据库领域的研究热点和难点问题。传统的数据集成研究依赖于元数据级别的模式映射和模式转换技术,较好地解决了结构级别的
随着互联网的迅猛发展,流媒体应用如远程教学、视频会议、网上直播等日益流行,这些应用都体现了流媒体信息大数据量、高质量、实时流畅的主要特点。对等网络(Peer-to-Peer Ne
凭借良好的性价比,可扩展性和故障隔离性,机群在科学计算,事务处理和网络服务等不同领域都获得了广泛的应用。   分布式的体系结构和资源特征,决定了机群系统中的典型应用为分
视频监控人数统计是智能视频监控的一个新的应用方向,兼有人群监控与客户流量统计的功能。人群的数量对场所安全管理是一个重要的依据,而客户流量统计则是为商业决策、交通管
基于CT图像的三维重建已成为目前国内外研究的热点,它利用在无损状态下获得的二维灰度图像,重建出符合人们视觉习惯的立体图像。内部裂纹缺陷具有不连续、不规则的特点,以前
20世纪90年代以来,随着“普适计算”计算模式的出现,无线通信、嵌入式计算、传感器及微机电系统(MEMS)等技术的快速发展,具有感知能力、计算能力和无线网络通信能力的微型传感器
资产定价是金融市场发展与完善的一个核心问题,也一直是金融领域的一个基础性研究问题。但目前对影响收益率因素的选取及构造研究普遍存在因素选取任意;没有考虑因素之间相关关