论文部分内容阅读
随着云存储服务高速发展及普及,多媒体数据如图片、视频等越来越成记录和分享信息的主要方式。与传统文字记录相比,图片等多媒体数据存储所占用存储空间要大得许多。因此在应对图片等多媒体数据时,如何有效的对图片去重,减少存储图片的容量也是一种新的挑战。研究观察发现在主流的社交网站(如facebook、qq、百度云)中,相似性图片在总图片数量集中占据很大比例。相似性图片其定义为经过图片的常见变换,例如图片的连拍、水印、裁剪、缩放等操作得到的一系列图片。针对这一发现,设计出一种图片去重系统。图片去重系统可以分为两部分。第一部分,将图片集进行相似性聚类,对图片集进行基于内容的图片检索。在图片检索技术方面,先将图片进行预处理,提取图片局部特征值,对提取的所有特征值执行K-Means聚类算法,将最终的聚类中心作为BOW(Bag-of-Words)模型的视觉单词,用视觉单词对SIFT特征点集进行量化处理,从而达到一张图片只需要用一个特征向量表示。最后采用倒排索引方式,将相似性图片进行聚类。第二部分,由于已聚类好的相似性图片其相似度很高,采用视频流压缩算法对图片进行压缩,极大减少图片存储容量。K-Means聚类算法是图片相似性聚类过程中的关键技术,其执行速度与结果将直接影响相似性图片压缩效果。换句话说,K-Means聚类算法会是整个系统的一个性能瓶颈。当处理大数量特征点时,标准K-Means聚类算法中数据点n和中心点k值会变得相当大,从而使得K-Means聚类算法效率变得低下。设计实现一种K-Means聚类算法优化方案,使其能够在面对大数据量n和k值情况下,降低算法时间复杂度,提升K-Means算法执行效率,因而应用于图片去重系统中提升系统执行速度。最后根据实验测试结果显示,优化的K-Means算法在大数量级下有较好的性能提升。