论文部分内容阅读
【摘要】本文运用统计学原理,综合了文献法、调查研究法、数理统计法,对大数据进行了调查分析与研究,详细的介绍了大数据以及大数据的特点、大数据的技术以及大数据的发展前景,提供了一套科学合理、完整全面的参数。
【关键词】大数据;数据库;数据储存;传统数据处理
一、大数据
在2011年5月,麦肯锡做出了《大数据:下一个创新、竞争和生产力的前沿》的报告,报告中明确指出“大数据”就是“大小远远超过标准数据库软件的收集、储存、整理和评定能力的数据集”。从这一定义中可以总结出大数据的两个显著特点:一个是在信息量高度膨胀的现代社会,传统的数据处理方式已经不能跟上发展步伐,因此需要新技术的诞生来改变这一现状:另一个是由于数据在膨胀,数据的存在与表现形式也在随之变化,因此新技术也应跟上这种变化。
1.关于大数据
最早应用大数据技术的是天气预报、气象侦测、地震预测、物理领域、天文领域、生物领域、军事、金融、通讯等部分,随着网络语通信技术的高速发展,大数据也逐渐应用于民用之中。大数据在互联网中拥有非常大的规模,据国际数据公司的统计,全球在2008年产了0.49ZB,到2012年,仅仅4年时间就增长到1.82ZB,以此计算,全球人均上网数据达到300GB。由人类诞生至2012年,所产生的全部文字资料的数据达到约200PB,全人类额语言数据量达到了5EB。经过IBM的调查研究发现在人类文明史中额全部数据中,有90%的数据量都产生于过去的两年,由此可以预计再未来的十年,数据量将以40%的速度飞速增长,那么到2020年将达到35ZB。
2.大数据的特点
由于数据量的飞速发展,那么对于这些数据的储存、整理以及研究将会是困难的问题,这一问题不仅仅由于庞大的数据量,还存在对如此巨大数据的收集方法、储存方法以及整理的方法都要区别于传统的数据收集方法、储存方法以及整理方法。对于传统的数据的处理方法较为单一,数据存在较大的一致性。数据大都源于一个源头,因此数据的集中储存也比较方便,这样既减轻了经济负担,又节省了互联网资源。
但是在大数据的条件下,数据源自各个方面。数据结构也区别于传统的数据,要想数据并行处理来提高数据处理速度就必须强调数据结构的一致性。因此采用传统的数据处理方式来处理大数据必然会出现错误的算法,因此必须使用新的方法才可以解决大数据多种不同结构的特点。
大数据还存在区别于传统数据的方面:由于传统数据的数据量较小,那么它的处理方式是以处理器为核心,因此数据的传输不会带来有关于数据处理的困扰。但是对于大数据来说,整个数据整合分析的关键就在于数据传输,由此,就要求数据的处理方式核心必须由处理器转换到数据上来避免数据出现移动误差。
由此,通常将数据的特点总结为4个“V”,即数据量(Volume)、数据种类多样性(Variety)、速度(Velocity)、实性(Veracity)。
二、大数据技术
由大数据的数据量、数据种类多样性、速度与实性的特点可以看出,大数据与传统数据的不同实质的问题表现在储存和分析处理这两个方面上的,由此,大数据的技术必须围绕这两个问题进行
1.储存数据库
由于传统的数据处理已不适用于数据量急剧增加的大数据,因此使用传统数据处理方法处理大数据将会出现对数据的高并发读写、查阅、处理等需要时会出现很多问题:比如高并发读写延缓增大、相关查阅效率较低。由此可见,对于大数据的存储数据库应该采取更高的效率。对于类型多种多样的数据已经不可以使用平面式结构的储存模式进行储存了,二应采用列存的结构。以此结构储存的列数据可以分步骤储存在不同的数据库主机,就可以实现并发数据通信量分散到不同的数据库主机,这样也有利于对数据库进行扩充。
2.分析技术
分析技术是应用于面向客户的,宗旨在于为客户提供数据分析整合结果的关键技术之一。在对于大数据的分析处理技术范畴,全球几大独立的软件提供商已经相继逐步推出了相对于大数据分析技术德尔解决方法,例如微软的Azure,EMC的ClickFox,Google的BigQuery 等等。与分析技术相关联的还有分析数据库技术,其中最著名的是EMC的Greenplum。EMC的Greenplum是一个集数据库、数据计算、数据储存和互联网为一体的高扩展的数据储存应用。数据分析技术,如ClickFox,将Greenplum整理为一个单一并且易于管理的企业级系统。Greenplum注重于数据储存,凭借数据库节点为分析技术ClickFox提供服务。有关于大数据的收集、储存、处理都与互联网的发展密切相关,网络是大数据技术的基础推动力,但是在互联网条件下进行收集、储存、整理就难免会使用分布式的技术方法。
三、大数据的发展方向
在2012年3月29日,美国政府宣布将投资两亿美元推动有关于大数据产业的发展,将“大数据战略”上升到国家意志的高度上来。在白宫的网站上,美国总统奥巴马曾发表《大数据研究和发展倡议》,指出了凭借收集、分析整合巨大并且繁杂的数据信息,从而收获知识以及见解,提高能力,加快科学领域、建筑领域的拓展脚步,加强美国的国防土地安全,转换教育与学习的方法。我国工程院院士邬贺铨说:智慧城市是应用智能的数据处理技术促使城市基础设备的构成以及服务体系更加智能合理、相互关联并且有效率,随着有关于智慧城市的逐步完善,社会将进入崭新的“大数据”时代。
中国商业联合会副会长刘建沪说:由于互联网的高速发展,我国的有关电子商务企业逐渐组成了数据分析单位。2011年10月,工信部将北京、上海、深圳、杭州等五个城市作为“云计算中心”的试实行城市。但真正的问题并不在于如何建设“云计算中心”,而在于面对大数据的冲击,建设相关的基础设备要有目的性。有的数据需要储存,但有的数据却没有储存的必要。中央财经大学中国经济管理研究院博士张永力曾分析大数据的市场:国外的有关于大数據额行业大约有1000亿美元对的行情,并且在以每年10%的速度飞速增长,其增长速度达到软件行业的二倍。
四、结束语
综上所述,随着大数据时代的到来,传统的数据处理方式已经不再适用,因此这一传统处理方法正在面临严峻的挑战,大数据的大量化、多样化、迅速化以及价值密度低等特点让传统的查阅方式应接不暇。只有不断完善有关于大数据的相关技术,才能将大数据的来袭由困难变为机会,可以更好地利用这一资源,真正做到海量信息效率化。
参考文献
[1]李国杰.大数据研究:未来科技及经济社会发展的重大战略领域:大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.
[2]徐子沛:大数据[M].广东师范大学出版社,2013.
[3]维克托·迈尔-舍恩伯格.大数据时代[M].浙江人民出版社,2012.
[4]李志刚.大数据:大价值、大机遇、大变革[M].电子工业出版社,2012.
【关键词】大数据;数据库;数据储存;传统数据处理
一、大数据
在2011年5月,麦肯锡做出了《大数据:下一个创新、竞争和生产力的前沿》的报告,报告中明确指出“大数据”就是“大小远远超过标准数据库软件的收集、储存、整理和评定能力的数据集”。从这一定义中可以总结出大数据的两个显著特点:一个是在信息量高度膨胀的现代社会,传统的数据处理方式已经不能跟上发展步伐,因此需要新技术的诞生来改变这一现状:另一个是由于数据在膨胀,数据的存在与表现形式也在随之变化,因此新技术也应跟上这种变化。
1.关于大数据
最早应用大数据技术的是天气预报、气象侦测、地震预测、物理领域、天文领域、生物领域、军事、金融、通讯等部分,随着网络语通信技术的高速发展,大数据也逐渐应用于民用之中。大数据在互联网中拥有非常大的规模,据国际数据公司的统计,全球在2008年产了0.49ZB,到2012年,仅仅4年时间就增长到1.82ZB,以此计算,全球人均上网数据达到300GB。由人类诞生至2012年,所产生的全部文字资料的数据达到约200PB,全人类额语言数据量达到了5EB。经过IBM的调查研究发现在人类文明史中额全部数据中,有90%的数据量都产生于过去的两年,由此可以预计再未来的十年,数据量将以40%的速度飞速增长,那么到2020年将达到35ZB。
2.大数据的特点
由于数据量的飞速发展,那么对于这些数据的储存、整理以及研究将会是困难的问题,这一问题不仅仅由于庞大的数据量,还存在对如此巨大数据的收集方法、储存方法以及整理的方法都要区别于传统的数据收集方法、储存方法以及整理方法。对于传统的数据的处理方法较为单一,数据存在较大的一致性。数据大都源于一个源头,因此数据的集中储存也比较方便,这样既减轻了经济负担,又节省了互联网资源。
但是在大数据的条件下,数据源自各个方面。数据结构也区别于传统的数据,要想数据并行处理来提高数据处理速度就必须强调数据结构的一致性。因此采用传统的数据处理方式来处理大数据必然会出现错误的算法,因此必须使用新的方法才可以解决大数据多种不同结构的特点。
大数据还存在区别于传统数据的方面:由于传统数据的数据量较小,那么它的处理方式是以处理器为核心,因此数据的传输不会带来有关于数据处理的困扰。但是对于大数据来说,整个数据整合分析的关键就在于数据传输,由此,就要求数据的处理方式核心必须由处理器转换到数据上来避免数据出现移动误差。
由此,通常将数据的特点总结为4个“V”,即数据量(Volume)、数据种类多样性(Variety)、速度(Velocity)、实性(Veracity)。
二、大数据技术
由大数据的数据量、数据种类多样性、速度与实性的特点可以看出,大数据与传统数据的不同实质的问题表现在储存和分析处理这两个方面上的,由此,大数据的技术必须围绕这两个问题进行
1.储存数据库
由于传统的数据处理已不适用于数据量急剧增加的大数据,因此使用传统数据处理方法处理大数据将会出现对数据的高并发读写、查阅、处理等需要时会出现很多问题:比如高并发读写延缓增大、相关查阅效率较低。由此可见,对于大数据的存储数据库应该采取更高的效率。对于类型多种多样的数据已经不可以使用平面式结构的储存模式进行储存了,二应采用列存的结构。以此结构储存的列数据可以分步骤储存在不同的数据库主机,就可以实现并发数据通信量分散到不同的数据库主机,这样也有利于对数据库进行扩充。
2.分析技术
分析技术是应用于面向客户的,宗旨在于为客户提供数据分析整合结果的关键技术之一。在对于大数据的分析处理技术范畴,全球几大独立的软件提供商已经相继逐步推出了相对于大数据分析技术德尔解决方法,例如微软的Azure,EMC的ClickFox,Google的BigQuery 等等。与分析技术相关联的还有分析数据库技术,其中最著名的是EMC的Greenplum。EMC的Greenplum是一个集数据库、数据计算、数据储存和互联网为一体的高扩展的数据储存应用。数据分析技术,如ClickFox,将Greenplum整理为一个单一并且易于管理的企业级系统。Greenplum注重于数据储存,凭借数据库节点为分析技术ClickFox提供服务。有关于大数据的收集、储存、处理都与互联网的发展密切相关,网络是大数据技术的基础推动力,但是在互联网条件下进行收集、储存、整理就难免会使用分布式的技术方法。
三、大数据的发展方向
在2012年3月29日,美国政府宣布将投资两亿美元推动有关于大数据产业的发展,将“大数据战略”上升到国家意志的高度上来。在白宫的网站上,美国总统奥巴马曾发表《大数据研究和发展倡议》,指出了凭借收集、分析整合巨大并且繁杂的数据信息,从而收获知识以及见解,提高能力,加快科学领域、建筑领域的拓展脚步,加强美国的国防土地安全,转换教育与学习的方法。我国工程院院士邬贺铨说:智慧城市是应用智能的数据处理技术促使城市基础设备的构成以及服务体系更加智能合理、相互关联并且有效率,随着有关于智慧城市的逐步完善,社会将进入崭新的“大数据”时代。
中国商业联合会副会长刘建沪说:由于互联网的高速发展,我国的有关电子商务企业逐渐组成了数据分析单位。2011年10月,工信部将北京、上海、深圳、杭州等五个城市作为“云计算中心”的试实行城市。但真正的问题并不在于如何建设“云计算中心”,而在于面对大数据的冲击,建设相关的基础设备要有目的性。有的数据需要储存,但有的数据却没有储存的必要。中央财经大学中国经济管理研究院博士张永力曾分析大数据的市场:国外的有关于大数據额行业大约有1000亿美元对的行情,并且在以每年10%的速度飞速增长,其增长速度达到软件行业的二倍。
四、结束语
综上所述,随着大数据时代的到来,传统的数据处理方式已经不再适用,因此这一传统处理方法正在面临严峻的挑战,大数据的大量化、多样化、迅速化以及价值密度低等特点让传统的查阅方式应接不暇。只有不断完善有关于大数据的相关技术,才能将大数据的来袭由困难变为机会,可以更好地利用这一资源,真正做到海量信息效率化。
参考文献
[1]李国杰.大数据研究:未来科技及经济社会发展的重大战略领域:大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.
[2]徐子沛:大数据[M].广东师范大学出版社,2013.
[3]维克托·迈尔-舍恩伯格.大数据时代[M].浙江人民出版社,2012.
[4]李志刚.大数据:大价值、大机遇、大变革[M].电子工业出版社,2012.