论文部分内容阅读
随着信息技术的发展,信息检索的作用日益凸显。特别是在图像检索领域,如何从海量的图像数据中快速、准确地寻找到我们期望的图像是一个十分重要且越来越热门的研究方向。基于内容的图像检索通常根据图像的视觉特征,计算特征间的相似度,并检索出相似图像。基于内容的图像检索已经运用到越来越多的领域,包括医学、电子商务、人脸识别等等。
“中华字库”工程的目标是建立全部汉字及少数民族文字编码字符集和主用字体字库。在对文字,特别是古文字的整理过程中,需要去除相同文字的重复字图,以保证一个未编码字只收集一次。检索出这样相似的字图对于文字学研究、数字图书馆等领域具有很高的应用价值。本文着重研究了在面向文字图像的检索系统中的若干关键技术,具体包括以下三个方面:
在图像预处理阶段,本文提出了一种基于背景估计与边缘检测相结合的图像二值化方法,该方法先利用Sauvola算法有效地估计图像的背景,并在此基础上,结合改进的Canny算法获取边缘变化信息,利用基于局部闽值的策略进行二值化。实验表明,在DIBCO2011数据集上,其效果与Otsu、Niblack、Sauvola经典方法相比有大幅提高。
在字图归一化和特征提取算法上,本文实现了若干种字图归一化的方法,并对比了基于像素的特征、基于SIFT的特征、梯度特征、链码特征与坐标归一化的链码特征提取算法在字图检索系统的效果,实验表明,基于修正的中心边界对齐归一化方法和梯度特征提取方法更适合字图数据。
在检索的速度上,本文分别研究了主成分分析与局部敏感哈希对检索速度的影响后,提出了一种基于主成分分析与局部敏感哈希索引相结合的快速检索策略。实验表明,提出的算法在保证检索质量的基础上,有效的减少了检索的时间,大幅提高了检索的效率。