论文部分内容阅读
随着现代信息技术的飞速发展,特别是近年来云计算、物联网、社交网络等新技术和新应用的不断涌现,图像/视频等形式的数据呈现出爆炸式的增长。在各种图像/视频数据,尤其是社交网络产生的大数据中,包含了各种各样的用户个人隐私信息,这些个人隐私的泄露可能会给用户带来无法估量的负面影响。存储在服务器端的用户隐私数据也存在着被窃取、泄露和篡改的巨大风险。 加密是保护图像内容安全的一个有效手段。然而,现有的图像检索技术却无法对加密后的图像直接进行检索。因此,如何设计出一种安全有效的检索机制,即在保证不泄露用户隐私的前提下,准确、快速地检索出用户感兴趣的图像就成为目前图像搜索技术领域内需要重点解决的一个问题。 本文针对隐私保护这一要求,开展了隐私保护海量图像检索关键技术的研究。本文的研究内容包括以下几个部分: 首先,针对传统SIFT特征描述符在某些区域中分布过于集中的问题,对该区域的SIFT特征描述符进行合理的优化整合,减少SIFT特征的数量,提高检索速度。接下来,本文将颜色特征与优化后的SIFT特征相结合,以进一步提高图像检索的准确性。在此基础上,提出了一种基于词汇树的海量图像检索方案。实验结果表明,与未优化的SIFT特征提取相比,该方案可以将SIFT特征数量平均减少50%,将查询索引的构建时间缩短为1/13,同时得到的查准率为85.9%,F1的值为0.572,可以实现海量图像的快速、准确检索。 其次,针对海量高维特征数据引发的“维度灾难”,本文对主成分分析(PCA,Principal Component Analysis)、线性Fisher判别分析(FLDA,Fisher LinearDiscriminant Analysis)、局部Fisher判别分析(LFDA,Local Fisher DiscriminantAnalysis)、等距离映射(ISOMAP,Isometric Mapping)、局部线性嵌入(LLE,Locally Linear Embedding)以及局部保持投影(LPP,Locality PreservingProjections)等6种降维方法对海量图像检索性能的影响展开了深入的研究。本文分别采用6种降维方法对图像的特征进行降维,并将降维后的特征数据用于构建词汇树,实现对海量图像的检索。实验结果表明,LLE,LPP两种特征降维方法不仅计算复杂度低,同时还可以获得较高的检索性能。接下来,本文进一步对特征维度对检索性能的影响进行了研究。研究结果表明,发现利用LPP的降维方法,当DSIFT=8,DHSV=8时,海量图像检索的性能能达到最优,能够实现在保持现有图像检索速度的同时,有效提高图像检索的准确率。 第三,本文将隐私保护与图像检索结合起来,将隐私保护引入到明文域的海量图像检索框架中,提出了一种面向海量图像检索的隐私保护索引生成方法。首先,利用二元随机编码对倒排索引进行转换、提取和随机置换等一系列操作,生成二进制形式的索引。然后,利用基于密钥的高斯随机矩阵将二进制形式的索引从高维空间随机投影至低维空间,通过这种二次加密,得到具有隐私保护的索引,用于图像检索。实验结果表明,本文提出的隐私保护索引可以在不泄露用户隐私信息前提下,实现海量图像的快速、准确检索。 最后,基于上述研究内容,本文实现了一套隐私保护的海量图像检索演示系统,该系统将本文中的研究内容,如特征提取、特征降维、词汇树索引的构建、隐私保护索引的构建以及相似性度量等进行了实现,可以演示验证这些研究方案的可行性和有效性。