论文部分内容阅读
信息技术在各行各业的普及,大量的数据产生于不同的行业,给大规模数据分析与计算行业带来了全新的挑战,大数据技术已经受到了各行各业的重视。在金融领域中,数据处理一直是金融IT系统中非常重要的一部分。从交易系统到管理系统,大量的数据产生于各个阶段,亟需有效的大数据处理手段来应对数据不断增加下的各种需求。Hadoop系统框架的提出,带来海量数据处理技术新的潮流。由于Hadoop具有开源、可扩展、经济适用以及处理数据的高效等特性,使得它在计算机行业得到了广泛的应用。本文基于某金融公司实际的交易日志系统,以Hadoop平台为基础,结合多种大数据处理技术,研发面向金融大数据的专用存储与处理系统,实现高效的数据加载、管理与查询。解决了现有系统中的以下问题:1.数据规模庞大,大大超过了传统数据管理与挖掘技术能够有效处理的范围;2.主流的Hadoop大数据处理平台虽然应用在该公司金融数据上存在计算资源利用率极低等。本文首先详细研究了在原始系统中使用到的Hadoop平台关键技术。主要研究了Hadoop File System、 MapReduce框架和Hive相关理论知识。其中Hive部分,分别对Hive架构、HiveQL、文件格式和UDF等进行了比较深入的研究。使用HiveQL与Linux结合的方式,对原始系统的Hadoop执行日志进行文本处理,找到系统的常用业务需求。对原始系统中的物理表结构、字段等进行分析,找到系统中的存储冗余问题。通过对系统的架构进行分析,找到系统查询性能问题。针对系统以上问题,文中提出从逻辑结构、物理结构、系统架构方面的详细优化方案。通过物理表和多视图结构的方式,优化系统逻辑结构。对于物理结构,提出了优化的存储格式Morcfile。在系统架构方面,提出了更利于数据处理的系统架构。最后,对提出的优化方案介绍了详细的实现过程,并在实际的系统中进行了效率测试和性能测试,验证了系统设计的有效性和可行性。