论文部分内容阅读
本文针对包含不同分辨率、不同颜色灰度、中文、日文和英文等多种文字的大规模文档图像检索问题,提出了一种新的基于图像特征的文档图像检索方法。该方法在对文档图像进行预处理后,提取文档图像的密度分布特征(DensityDistributionFeatures,DDF),前景局部分布特征,和关键块特征(KeyBlockFeatures,KBF),页面几何结构全局特征,然后依靠密度分布特征对图像进行相似度匹配,再利用关键块特征对匹配产生的候选图像进行可靠性检测,最后给出检索结果。为了提高算法的检索效率,采用基于倒排文件思想的重叠索引技术。避免了检索阶段的逐一检测过程,从而大大缩小了匹配空间,有效地提高了检索速度。
在包含10,000多文档的大规模文档图像数据库上进行实验,结果表明上述方法可以有效地在包含不同分辨率、不同颜色深度、混合多种文字(中文、英文、日文)的大规模文档图像数据库中实现快速检索;平均的检索时间为2.42秒,前五名检索成功的准确率为:95.9%。