论文部分内容阅读
“工业生物技术战略研究与知识环境建设”项目是中国科学院知识创新工程重要方向项目,它旨在通过整合国际与国内工业生物技术领域多类型的数据信息资源,为该领域的科研人员和决策机构构建一个规范化、数字化的战略研究环境。其子课题“工业生物技术数据仓库建设”是整个知识环境的数据支撑,而在数据仓库系统各个组成部分中,ETL是影响数据仓库系统成败与否的关键所在,ETL系统的开发也是整个数据仓库系统开发过程中工作量最大、耗时最长的部分。
本文首先介绍了数据仓库的原理,探讨了公共仓库元模型规范的意义及其对ETL过程提供的支持;分析了元数据在数据仓库中,特别是ETL系统中的重要作用。然后阐述了ETL的关键技术及研究现状,分析了当前流行ETL软件的特点及不足。在此基础上,针对现有ETL工具的局限性和本课题的实际需求,参考公共仓库元模型标准,提出了一个基于web的ETL服务器系统架构,讨论了系统各功能模块的设计和开发过程,分析并解决了系统中关键性的理论和技术难题。
本文设计的ETL服务器以MySQL作为存储服务器,使用Ruby On Rails框架编码实现,提供友好的web访问方式,通过定义转换任务来实现数据集成,具有高可靠性、高可用性、易扩展性和可维护性,并成功在实践中得到应用,基本验证了设计思想的正确性。