论文部分内容阅读
近几年来随着通信技术的发展和用户范围扩大,通信行业IT系统中数据急剧增加,各个信息系统均产生海量数据并产生了数据孤岛。在日益竞争和瞬息万变的经济时代,如何充分利用这些数据,深层次地挖掘数据资源,使决策者能及时掌握公司的运营情况,从而提高公司的业务发展和竞争优势,扩大市场份额。日益发展和流行的数据仓库技术正是解决上述问题的一种技术方案。但是面对海量的孤岛数据,如何进行数据仓库建模,如何清洗杂乱无序的数据一直是数据仓库实施的难点和重点。本文将结合电信行业项目海量数据的特点,运用数据仓库的各项技术做好系统实施工作。 本论文的重点是结合通信行业的业务特点,找到合适数据仓库项目实施方法以及实施策略,探讨适合通信行业特点的数据仓库架构、数据仓库建模、数据处理策略、数据集市构建策略以及数据质量控制策略。该数据仓库项目实施为该电信企业积累了宝贵的数据资源,并提供了丰富的统计报表和分析应用,大大缩短了市场分析和制定市场策略反应时间,为该公司带来了巨大的效益。 第一部分为数据仓库概述,该章将对数据仓库概念的引入、数据仓库产生和发展进行了阐述,并简单介绍了数据仓库的商业应用,以期为后续章节做好铺垫; 第二部分为理论部分,结合前人在数据仓库的研究,引入并介绍数据仓库相关技术、概念以及规范,这是数据仓库实施的主要参考依据; 第三部分为数据仓库的实施过程,该章主要对数据仓库实施的过程和方法进行选择,其重点是论述数据仓库的体系结构,为了便于实施,基于应用角度和数据处理角度对体系结构进行了分解。 第四部分为数据仓库建模,该章将对数据模型的选择以及构建过程,在多维建模中需要注意的问题以及所选择的星型模型构建策略进行详细的阐述,其中维表处理策略、事实表处理策略是创新之处。 第五部分介绍了数据处理过程,这是数据仓库实施的关键环节。本章结合源数据的情况,选择了适宜的ETL策略、抽取模式。本部分还详细的介绍了ETL具