面向ETL过程的数据质量控制系统的设计与实现

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:kaigg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
ETL过程是一个从分布数据源(包括数据库、应用系统、文件系统等)抽取数据,进行转换、集成和传输,并最终加载到目标系统的过程。传统的ETL过程主要服务于数据仓库(Data Warehouse),属于企业决策支持系统的一部分。随着数据集成技术的发展和轻量级的数据集成中间件的出现,ETL过程广泛应用于企业数据集成与数据交换系统。在ETL过程中,数据质量控制是一个极为重要的基本组件和功能,它对集成中的数据进行检测、转换、清洗,以防止“脏”数据进入目标系统。在ETL过程中如果缺少对数据质量的有效控制,就会导致数据集成项目无法圆满实现目标或彻底失败。   针对ETL过程中存在的数据质量问题,设计并实现面向ETL过程的数据质量控制系统,是本文研究的重点。论文通过对ETL过程中各阶段可能产生的数据质量问题进行了分类,并对质量控制需求建模,提出一个面向ETL过程的数据质量控制框架,该框架通过对源端数据的分析来指导ETL的设计,通过灵活、可配置、可扩展的数据处理机制实现数据的过滤、转换与清洗,并支持对数据质量处理全过程进行监控。在该框架基础上,论文特别在灵活的数据处理机制、数据分析、数据过滤和数据清洗四个方面进行了探讨。在数据处理机制方面,提出了基于插件元模型的数据处理机制,该机制可以满足用户对数据过滤、数据转换与数据清洗等功能的各种定制需求,并具有较强的可扩展性;在数据分析方面,根据字段类型对数据进行分类统计,并针对大数据量统计分析问题,提出了可自动配置的不同数据统计策略;在数据过滤方面,通过将抽取数据的SQL语句重写的方式,过滤不满足完整性约束的元组;在数据清洗方法方面给出了一种利用统计信息动态确定属性相似度权重的方法,对基于字段的相似记录检测算法的领域无关算法进行了改进,提高了数据检测的准确性。在上述工作基础上,在数据集成中间件OnceDI中设计并实现了数据质量控制系统,并在设计中通过设计模式的应用增强系统的可扩展性。
其他文献
高校教师综合评价是一个复杂的过程,它依据高校发展目标及高校发展阶段特征,建立科学的评价指标,对高校教师教学科研情况进行系统检测和考核,并做出相应的价值判断。科学合理的教
随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主
企业高性能计算的需求日益旺盛,高性能计算服务的提供方式也在慢慢寻求转型,研究如何构建企业级网格应用平台,从而向用户提供更加安全、方便、透明的高性能计算服务,是摆在高性能
学位
图像型火灾探测报警技术利用摄像机作为探头,将被监控现场的图像信息输入计算机系统,然后利用数字图像处理技术,从图像中识别出火焰和烟雾,进而判断火灾是否发生。由于本技术具有
学位
网络技术的快速发展和多变的业务需求使得软件功能日益复杂、规模日益庞大。面向服务架构作为一种新的计算范型,利用服务作为基本的构造单元,支持异构环境下分布式应用的快速、
自1969年互联网诞生以来,人们对它的监测一直没有引起足够的重视。一方面,由于互联网本身结构和内容的复杂性,使得网络的测量缺乏一个统一的标准;另一方面,在互联网发展的初级阶段
学位
随着计算机的普及和网络技术的发展,Internet上的Web用户爆炸性增长。作为Web应用主要支撑平台的Web应用服务器经常面临过载的问题。Web应用服务器集群技术是解决这一问题的有
由于计算机各方面性能的快速增强,数字化的图像和视频信息有了爆炸的增长。作为基于内容的图像检索(CBIR)的重要应用,图像分类帮助用户从大数据库中检索出自己感兴趣的图像。在
自然互动是人机交互的发展方向,其目标是赋予计算机参照人类自然形成的与自然界沟通的认知习惯和形式来与用户进行沟通和互动的能力。作为人们非语言类交流中最为自然和直观的
学位
应用市场日益分散与产品开发费用日益增大的矛盾促进了可根据应用定制的现代现场可编程门阵列(FPGA)迅速发展。随着集成密度按照摩尔定律提高,FPGA正在变得越来越复杂,传统的RT