论文部分内容阅读
随着数据成为企业的核心资产,商业银行的经营方式也将从以产品、客户为中心过渡到以数据为中心,数据驱动业务将成为不可逆转的发展趋势。将大数据应用到金融行业的各个业务环节中,有效提升业绩、管控风险,实现数据价值,成为金融行业即将面向和解决的问题。为了解决上述问题,通过对目前金融行业数据体系现状的深入分析,在调查研究数据仓库和大数据平台相关场景应用的基础上,提出了基于HADOOP开源社区技术的特性去解决金融行业内部面临的的大数据问题(大数据处理性能、性价比、实时性、低价值密度的数据挖掘)。HADOOP开源社区技术经过近几年的高速发展,涌现出许多具有较高实用价值的主流项目,如HBase、Hive等,同时HADOOP2.0的发布,使HADOOP具有HA特性,从底层架构上亦满足银行信息系统高可用的要求。基于HADOOP用高性价比的方式实现大数据集的采集、存储、跑批及实时处理、数据挖掘等数据应用处理场景,是目前同业比较主流的一种技术选型。本文首先对国内外针对金融行业大数据应用发展现状进行了阐述,后续介绍了HADOOP开源社区的相关技术、概念;然后针对金融行业数据应用体系进行了详细的调研和需求分析,在已有的单一数据仓库架构体系上,提出基于HADOOP搭建数据仓库、HADOOP混合核心数据体系架构设计;并在此基础上继续进行应用场景集成设计,例如非结构化数据采集及用户标签体系建设、基于用户标签体系训练用户流失预警模型、同时基于Drools搭建运营风险监控系统,已上述3个相关应用场景为例,进行系统设计,编码实现、系统测试,进行了实证研究。本文的创新点主要在于通过对于金融行业数据应用的现状分析建立了基于Hadoop的整体大数据解决方案。其次,通过研究基于Hadoop架构及其主要实现技术,结合具体的金融行业大数据应用建设需求,提出一个解决设计方案并给出系统的部分运行实例。