【摘 要】
:
随着信息呈爆炸式增长,越来越多的公司和组织部署私有云系统来处理大数据。私有云大数据分析类应用的这种新型负载给体系结构设计带来了新的机遇和挑战。Benchmark是量化体系
【出 处】
:
中国科学院研究生院 中国科学院大学
论文部分内容阅读
随着信息呈爆炸式增长,越来越多的公司和组织部署私有云系统来处理大数据。私有云大数据分析类应用的这种新型负载给体系结构设计带来了新的机遇和挑战。Benchmark是量化体系结构设计好坏的基础。然而,现有的benchmark由于以下三个方面的原因而不适合用来评价运行大数据分析类作业的私有云系统:首先,现有的benchmark所选取的应用不足以反映私有云大数据分析类应用的多样性;其次,现有的benchmark没有提出合适的指标来评价私有云整体性能;最后,在构造私有云负载过程中,现有的benchmark忽略了私有云系统软件本身的行为特性也是负载的一部分。
本文主要解决上述三个问题。对于第一个问题,本文提出的私有云benchmark―CloudRank―所包含的应用覆盖了数据分析基本操作、分类、聚类、推荐、关联规则挖掘、序列学习、数据仓库操作,并且所有的应用都是基于分布式处理框架Hadoop的,适用于处理大数据。对于第二个问题,本文首次提出了用单位时间处理的数据量和单位能耗处理的数据量作为评价私有云系统的指标,这两个指标分别从时间效率和能耗效率来衡量私有云系统设计的好坏。对于第三个问题,本文研究了如何构造负载,研究表明在负载构造时,不但要考虑应用本身的行为特征,还需要考虑系统软件的行为特征,因为系统软件的行为也是负载的一部分。另外,本文用CloudRank评价了两个小规模的,分别由Xeon处理器节点组成的和Atom处理器节点组成的私有云系统。
其他文献
传统的网络文件系统客户端利用页缓存来缓存服务器端的数据。然而,随着全球数据量的指数级增加,以及内存资源的稀缺性,如何提升网络文件系统对于海量数据的前端读写性能、降
密码学是信息安全的核心基础,密码算法的安全性是各类信息需求的基本保障。随着计算机能力的不断提升,自动搜索算法在密码的设计与分析中发挥了重要作用,成为密码学研究的一大热
人工神经网络是一个优越的通用逼近器,且得到了很好的发展和应用。但是由于存在一些缺陷,如“黑箱”特性和忽视存在的先验信息,神经网络的发展和应用受到了很大程度上的限制
近年来随着Web2.0技术的发展,以在线视频分享网站中的网络视频集为研究目标的网络视频检索技术逐渐成为研究的热点。由于网络视频内容丰富且质量参差不齐,传统的基于内容的视
移动存储介质因其快捷、灵活、简便等优点,成为信息交换存储的重要载体。在国家涉密部门如党政军、科研等机构中有大量的涉密文件不允许采用网络方式传输,只能依赖于各种有保密
星空场景实时仿真在空间探索、通讯导航、遥感探测等领域有着重要的应用价值。随着航天探测技术的快速进步,星空场景仿真正朝着大规模和实时快速的交互式方向迅速发展。
当前海量小文件访问性能瓶颈是现有分布式文件系统需要解决的问题,其主要表现在高比例元数据并发访问和高随机小粒度数据I/O访问。针对这些问题,本文以pNFS分布式文件系统为
随着互联网的快速发展,互联网上的信息量越来越大,出现了严重的“信息过载”问题,使得用户在面临如此多的信息量往往无所适从。推荐系统主要是对用户与物品之间的交互行为进
随着计算机网络的迅速发展,网络规模越来越庞大,网络中的各种应用和业务数量都在快速增长。在这样的环境下,网络流量数据的分析对全面了解网络服务状况,提升网络服务质量、网
卫星遥感是人类对地观测、分析、描述的有效手段。近年来,随着传感器技术的不断发展,遥感数据获取呈现出多分辨率、多平台的特点。遥感数据的分辨率已达到米级、亚米级。高分辨