论文部分内容阅读
随着数据仓库技术的广泛应用,企业在数据仓库中存储的数据越来越多,如何高效的使用这些数据则成为了一个新的问题,解决这一问题对理论还是实践都有重大意义。数据集市作为一个面向特定群体的数据分析需求的数据集合,如果可以与企业数据仓库相结合,必然能够极大的提高数据仓库中数据的使用效率,从而有效支持管理部门的统计分析和决策过程,提高企业的综合竞争力。本文通过一个电信行业数据集市系统的建设过程,给出了一种行之有效的数据集市系统的建设方法。以数据集市系统建设过程中的需求分析、概念模型设计、逻辑模型设计和物理模型设计阶段为重点,详细分析了各主要环节的工作内容及相关方法。在项目实施的过程中作者主要研究了以下几种技术的应用:1、采用系统边界界定方法,从系统的需求中准确的识别出数据集市系统的分析类型,最终确定分析的主题;2、采用关系模型和维度模型相结合的技术,建立了数据集市系统的数据模型。采用两种数据模型混的方式即满足了分析预测的需求又保证了系统的性能;3、在系统数据模型层次的设计上,为了满足各种分析粒度的需求和系统的性能指标,采用多层结构将数据合理的分布到不同的层次中。在满足系统的性能需求的同时提供了一定程度的灵活性;4、结合DB2数据库管理系统的特点,对数据集市的物理设计进行了较深入研究。根据数据集市本身的特点以及最终部署环境的特点,设计了一套可以高效访问的数据存储方式,为数据集市的性能提供了保障。通过以上技术的应用,提高了项目建设的质量,缩短了建设周期。尤其是混合数据模型设计和层次化系统模型设计的应用,将各种使用方式不同、粒度级别不同的数据有机的结合在一起,提供了灵活的数据视图,同时在系统性能上也有较大的提升。本文中提出了一种较实用的数据集市的建设方法,以这种方式建立的数据集市系统可以为进一步的应用(如数据挖掘、数据分析等)提供良好的基础,对其他行业数据集市系统的建设也有一定的借鉴作用。