论文部分内容阅读
目前,获取大数据的渠道主要有两个,一个是电话公司,一个是互联网公司。美国安全局就长期从电话运营商处获取到通话数据库,其中包含大量通话数据记录,例如通话时间与通话时长、相关电话号码以及移动设备本地数据等等。这套数据库建立于2001年“911”恐怖袭击事件后不久,而且得到了多家电信运营商的支持。2006年,《今日美国》称这套通话数据库是“世界上规模最大的数据库”。该数据库处理着数以十亿计的电话记录数据,有大量的计算机和数据分析师处理这些数据。
美国还長期从互联网信息中获取大数据。然而,他们目前无法真正捕捉并保存用户们所产生的全部数据。随着信息技术的发展,这两项艰巨任务逐渐变得可能起来。由于全球互联网的IP地址都由美国的服务商来提供,这给美国监控全世界提供了便利。美国安全局已经在海底互联网光纤主干上安装了智能流量分析器,这是一种原理类似于“水龙头”的分流装置,可以获取全球互联网上的信息。
然而,比获取信息更难的是存储信息。根据思科公司的统计,2012年全球互联网流量每天达11亿GB,这需要110万个容量为1000GB的硬盘来容纳这些数据。目前世界上90%以上的数据是最近几年才产生的,而在未来一段时期内,互联网上的数据每年将增长50%,从存储物质来看,目前要将互联网上的所有信息存储下来就已经无法实现,更不要说实际使用这些信息了。当然,从技术发展的角度来看,将来是有希望做到把所有的信息都存储下来,这就是未来的DNA计算机所能做的事情。DNA计算机将利用人工合成的DNA作为存储介质。DNA由4个碱基组成,它们的排列顺序千变万化,储存信息的容量相当大。最近,哈佛大学研究人员将一本大约有5.34万个单词的书籍编码进不到亿万分之一克的DNA微芯片,然后成功利用 DNA 测序装置来阅读这本书。这是迄今为止人类使用DNA遗传物质储存数据量最大的一次实验。
由于目前DNA存储还没有进入实用阶段,安全部门和司法部门都只能从相对有限的大数据中获取线索。美国安全局每天所捕捉并保留的数据总量,也仅占每天全球互联网流量和通话记录中的一小部分,即那些通过关键词、关键图像、关键数据等筛选过后的信息。从互联网获取信息还遭遇另外一个难题,那就是密码问题。往往安全部门希望获得的信息却是经过加密的,比如恐怖组织和一些黑客会采取很先进的加密技术来传输自己的信息。要破译这些信息,不仅需要更好的技术,而且投入十分巨大。而且,破译这些信息需要一定时间,恐怖组织或犯罪分子会利用这个时间差,在相关部门破译信息之前,恐怖袭击或犯罪活动已经发生了。因此,大数据时代警方所能利用的线索虽然很多,但是需要警方不断更新技术,让自己更好且快速地从这些数据中挖掘出有用信息。这些技术被统称为“数据挖掘”。
美国还長期从互联网信息中获取大数据。然而,他们目前无法真正捕捉并保存用户们所产生的全部数据。随着信息技术的发展,这两项艰巨任务逐渐变得可能起来。由于全球互联网的IP地址都由美国的服务商来提供,这给美国监控全世界提供了便利。美国安全局已经在海底互联网光纤主干上安装了智能流量分析器,这是一种原理类似于“水龙头”的分流装置,可以获取全球互联网上的信息。
然而,比获取信息更难的是存储信息。根据思科公司的统计,2012年全球互联网流量每天达11亿GB,这需要110万个容量为1000GB的硬盘来容纳这些数据。目前世界上90%以上的数据是最近几年才产生的,而在未来一段时期内,互联网上的数据每年将增长50%,从存储物质来看,目前要将互联网上的所有信息存储下来就已经无法实现,更不要说实际使用这些信息了。当然,从技术发展的角度来看,将来是有希望做到把所有的信息都存储下来,这就是未来的DNA计算机所能做的事情。DNA计算机将利用人工合成的DNA作为存储介质。DNA由4个碱基组成,它们的排列顺序千变万化,储存信息的容量相当大。最近,哈佛大学研究人员将一本大约有5.34万个单词的书籍编码进不到亿万分之一克的DNA微芯片,然后成功利用 DNA 测序装置来阅读这本书。这是迄今为止人类使用DNA遗传物质储存数据量最大的一次实验。
由于目前DNA存储还没有进入实用阶段,安全部门和司法部门都只能从相对有限的大数据中获取线索。美国安全局每天所捕捉并保留的数据总量,也仅占每天全球互联网流量和通话记录中的一小部分,即那些通过关键词、关键图像、关键数据等筛选过后的信息。从互联网获取信息还遭遇另外一个难题,那就是密码问题。往往安全部门希望获得的信息却是经过加密的,比如恐怖组织和一些黑客会采取很先进的加密技术来传输自己的信息。要破译这些信息,不仅需要更好的技术,而且投入十分巨大。而且,破译这些信息需要一定时间,恐怖组织或犯罪分子会利用这个时间差,在相关部门破译信息之前,恐怖袭击或犯罪活动已经发生了。因此,大数据时代警方所能利用的线索虽然很多,但是需要警方不断更新技术,让自己更好且快速地从这些数据中挖掘出有用信息。这些技术被统称为“数据挖掘”。