论文部分内容阅读
移动互联网的不断发展以及网络服务的推广普及,让人们的生活更加便利,随之产生的用户数据增长迅速。图像具体、易理解的特性,使得它成为了人们生活中最常用的多媒体数据的载体。随着数据量的剧增,图像数量增长速度也十分迅速。如何通过图像匹配技术,在海量图像数据中获得与目标图像具有相似的特征或内容的图像,变得具有实用意义,图像检索技术应运而生。随着图像检索技术的发展,如何高效、准确的得到检索图像成为了该领域的热点和难点的问题,而数据的迅速增长,使得海量数据的图像检索问题越来越受到人们的关注。本文主要的研究内容是利用Hadoop这个开源的分布式计算平台完成海量图像数据的图像检索。本文从图像检索技术和Hadoop平台入手,主要研究海量图像数据在Hadoop分布式文件系统的存储以及基于内容的图像检索在MapReduce编程模型中的实现。Hadoop分布式文件系统是Hadoop平台的数据存储和管理系统,它负责存储和管理数据,利用分布式文件系统可以实现海量图像数据的存储,而且可以有效的管理图像数据。MapReduce是Hadoop的编程模型,利用MapReduce实现图像检索算法,可以完成图像检索任务并且实现分布式计算功能。在海量数据存储方面,本文利用了Hadoop分布式文件系统以及专门用于海量数据存储的Hadoop相关技术存储图像数据。由于实验的图像数据集中的图像数据是小文件,而Hadoop在处理小文件时很难发挥它高效的性能,本文利用顺序文件的思想,提出了一种海量小图像数据的存储方式,解决了存储空间浪费和Master节点任务过重的问题。在基于内容的图像检索实现方面,本文利用MapReduce编程框架,实现了基于Hadoop平台的图像SIFT特征提取,以及特征的聚类和量化,通过聚类算法将图像提取的不确定个数的SIFT特征点表述为固定个数的几类,再通过特征量化算法的处理,将一幅图像用固定的维数的特征向量表述,最后利用欧氏距离测量这些特征向量与检索图像特征向量的相似度,得到了检索图像。图像检索市场前景广阔,可以被应用到众多领域,更是热门技术手势识别的基础。研究海量数据的图像检索更是意义重大,Hadoop平台在图像检索中的应用为解决海量数据的图像检索提供了一种思路。