论文部分内容阅读
图像检索技术是图像应用领域中的一个研究热点,在电子商务、知识产权等诸多领域中得到广泛应用。但是由于图像特征的维度普遍较高,如果直接采用图像的视觉特征来进行图像检索,不仅内存消耗巨大而且检索效率很低。因此本文针对图像索引技术,研究了局部敏感哈希和基于词袋模型的倒排索引,通过对这两种常见图像索引技术进行研究来提高图像检索效率。本文主要完成了以下几个方面的工作。本文研究了局部敏感哈希算法,对图像的全局特征建立索引,加快图像检索速度。介绍了局部敏感哈希的基本原理,以及两种距离测度下的局部敏感哈希算法选用基于汉明距离下的局部敏感哈希算法作为本章的索引算法;对传统局部敏感哈希算法的检索部分进行了优化,提出了特征数的概念,通过比较图像特征数,避免对整个图像数据库进行检索,有效地提高算法的时间效率。本文研究了图像局部特征索引技术。采用词袋模型对图像的局部特征进行降维处理,并对传统K-means聚类算法的初始点进行改进,使得聚类形成的视觉单词效果更好;提出了词频向量先聚类再检索的方法,有效地提高了词袋模型检索效率;针对词袋模型的线性检索效率较低,本文再对倒排索引进行了研究,把倒排索引应用到词袋模型中,通过对图像建立倒排索引,加快图像检索速度;针对倒排索引的准确率不足,在倒排索引基础上加入TF-IDF算法,提高倒排索引的准确率。