论文部分内容阅读
随着地震前兆观测时间序列数据量越来越大,现有的基于Web的可视化方案由于网络传输的数据量大,导致系统响应时间变长,严重影响了用户的交互体验。基于采样和过滤的大数据可视化方案虽然可以大大缩小数据规模,缩短数据传输时间,但会丢失高频数据背后的信息。面对如此海量的地震观测数据,如何高效地存储并对满足用户需求的数据进行快速地可视化分析,已经成为目前迫切需要解决的问题。
针对上述问题,本文在研究目前主流的以MySQL为代表的关系型数据库、以OpenTSDB为代表的分布式文件系统以及以HBase为代表的NoSQL数据库等三种存储方案基础上,采用HBase数据库,提出了一种地震前兆时间序列大数据存储方案,以解决海量地震前兆数据读写效率低下的问题。接着,针对现有的基于Web的可视化方案存在的一些不足,同时考虑到目前的地震前兆观测数据存储在关系型数据库中,本文首先提出了一种基于Cloudberry的地震大数据渐进式可视化方案。此外,随着大数据技术的发展,在大数据平台下,针对大数据的存储与应用已经成为一种越来越流行的趋势,因此接着又提出一种基于HBase的地震大数据渐进式可视化方案。
本文的创新点如下:
(1)提出了基于HBase的地震大数据存储方案。针对传统的关系型数据库在存储海量地震前兆观测数据方面存在读写效率低下的问题,同时考虑到地震前兆观测数据的特点、应用场景以及查询数据的实时性、快速性等方面的需求,将地震前兆观测数据保存在HBase数据库中。实验结果表明,基于HBase的存储方案具有较优异的可扩展性与并发性,在读取操作和写入操作方面也都表现出较好的性能,充分证明了本方案的有效性。
(2)本文首次提出了基于Cloudberry的地震大数据渐进式实时可视化解决方案。该方案大大缩短了各数据分片的传输时间,改善了用户交互体验,很好地满足了地震业务中长期大范围观测数据可视化的需要。针对目前包括Cloudberry在内的渐进式可视化方案中,平均聚合函数(AVG)的正确性往往得不到保证的问题,本文创新性地提出了一种基于计数(COUNT)和求和(SUM)聚合函数可累加性的AVG转换规则技术解决方案,以保证AVG结果的正确性。实验结果表明,与非渐进式可视化方案相比,基于Cloudberry的渐进式可视化方案可以在不需要长时间等待的情况下立即看到结果。并且与P5渐进式可视化方案相比,Cloudberry每批次的响应时间更短,并且随着数据量的增加,Cloudberry总能将每批的响应时间保持在用户可接受的范围内。因此,Cloudberry渐进式可视化方案缩短了用户的响应时间,避免了长时间的等待,提高了用户的交互体验。
(3)提出了一种大数据环境下的渐进式可视化方案,以满足大数据场景下的需求。由于Cloudberry目前不支持大数据环境下的HBase数据库,虽然可以通过Elasticsearch从HBase中读数据,但此方案明显涉及到了网络中大规模的数据迁移,耗时且浪费计算资源。因此,本文模仿Cloudberry提出了一种大数据环境下的渐进式可视化方案,并将研究成果应用在“地震大数据可视化及机器学习平台”项目上。应用结果表明,地震大数据渐进式可视化方案具有快速性、灵活性等特点,对海量地震前兆观测数据的可视化具有广泛而实用的价值。
针对上述问题,本文在研究目前主流的以MySQL为代表的关系型数据库、以OpenTSDB为代表的分布式文件系统以及以HBase为代表的NoSQL数据库等三种存储方案基础上,采用HBase数据库,提出了一种地震前兆时间序列大数据存储方案,以解决海量地震前兆数据读写效率低下的问题。接着,针对现有的基于Web的可视化方案存在的一些不足,同时考虑到目前的地震前兆观测数据存储在关系型数据库中,本文首先提出了一种基于Cloudberry的地震大数据渐进式可视化方案。此外,随着大数据技术的发展,在大数据平台下,针对大数据的存储与应用已经成为一种越来越流行的趋势,因此接着又提出一种基于HBase的地震大数据渐进式可视化方案。
本文的创新点如下:
(1)提出了基于HBase的地震大数据存储方案。针对传统的关系型数据库在存储海量地震前兆观测数据方面存在读写效率低下的问题,同时考虑到地震前兆观测数据的特点、应用场景以及查询数据的实时性、快速性等方面的需求,将地震前兆观测数据保存在HBase数据库中。实验结果表明,基于HBase的存储方案具有较优异的可扩展性与并发性,在读取操作和写入操作方面也都表现出较好的性能,充分证明了本方案的有效性。
(2)本文首次提出了基于Cloudberry的地震大数据渐进式实时可视化解决方案。该方案大大缩短了各数据分片的传输时间,改善了用户交互体验,很好地满足了地震业务中长期大范围观测数据可视化的需要。针对目前包括Cloudberry在内的渐进式可视化方案中,平均聚合函数(AVG)的正确性往往得不到保证的问题,本文创新性地提出了一种基于计数(COUNT)和求和(SUM)聚合函数可累加性的AVG转换规则技术解决方案,以保证AVG结果的正确性。实验结果表明,与非渐进式可视化方案相比,基于Cloudberry的渐进式可视化方案可以在不需要长时间等待的情况下立即看到结果。并且与P5渐进式可视化方案相比,Cloudberry每批次的响应时间更短,并且随着数据量的增加,Cloudberry总能将每批的响应时间保持在用户可接受的范围内。因此,Cloudberry渐进式可视化方案缩短了用户的响应时间,避免了长时间的等待,提高了用户的交互体验。
(3)提出了一种大数据环境下的渐进式可视化方案,以满足大数据场景下的需求。由于Cloudberry目前不支持大数据环境下的HBase数据库,虽然可以通过Elasticsearch从HBase中读数据,但此方案明显涉及到了网络中大规模的数据迁移,耗时且浪费计算资源。因此,本文模仿Cloudberry提出了一种大数据环境下的渐进式可视化方案,并将研究成果应用在“地震大数据可视化及机器学习平台”项目上。应用结果表明,地震大数据渐进式可视化方案具有快速性、灵活性等特点,对海量地震前兆观测数据的可视化具有广泛而实用的价值。