论文部分内容阅读
作为IT行业的一项新兴技术,云计算最初由亚马逊、Google等国外IT公司首先研究和应用,而后被学术界广泛研究,这些研究集中在体系结构、关键技术、编程模型、支撑平台和产业应用等方面,对关键技术和产业应用的研究是云计算领域最重要的两个方面,关键技术主要包括虚拟化技术、云中的安全机制、云检测、数据管理、能耗管理、资源调度等,产业应用涉及大数据集分析、RDF数据分析、数据库应用、医学与生物科技、地理信息系统、企业信息系统、天文学应用和云安全等领域。论文分析使用云技术搭建数字图书馆存储系统的可行性和技术准备,可行性分析包括云计算的行业适应可行性、业务适应可行性、基础设施可行性、数据库应用可行性、跨平台可行性等方面,数字图书馆采用云计算的技术准备包括规划容量、统一数据格式、调整应用程序架构、设计机器映像等工作。对商业云计算服务和开源云计算技术进行系统归纳,对三个最重要商业云计算厂商包括亚马逊、Google和微软的云计算平台从技术和市场策略、体系结构与使用流程三个方面进行对比,详细比较三个平台在数据存储与数据库服务方面的特征。分析EMC、IBM、惠普、Oracle和思科等传统硬件厂商云计算技术和产品,研究开源云计算系统的系统结构、技术特点和应用情况,而后将云技术进行归纳,从互联网云计算和IT云计算两方面进行论述,在此基础上提出云技术选择模型,认为数字图书馆可以采用虚拟化技术,用软件管理的方法提高存储系统效率。论文介绍著名开源云计算系统Hadoop,利用VMWare workstation在单台PC上搭建三台Linux虚拟机,组建虚拟局域网,并成功部署一个小型Hadoop集群,该集群包括一个NameNode和两个DataNode,阐述试验环境、搭建步骤,进行系统格式化、系统启动、添加节点、负载均衡等基本操作,其后讨论Hadoop集群的产业应用情况,包括Web搜索、大数据集分析、与数据仓库集成等,分析不同集群的规模和配置状况,指出Hadoop集群进一步推广需要在与其他文件系统兼容性和互操作、大规模小文件的管理和系统传输效率等方面进行研究和改进。最后进行总结和展望。