论文部分内容阅读
基于OCR的图文库检索方法有非常广泛的应用前景。将纸质文档以图像方式保存,但却利用文档图像的文字识别结果进行检索,这使得纸质文档的保存与检索都非常方便。但出于OCR的识别结果并非完全正确,特别是对于有些图像质量较差的文档或多语种混排文档,识别错误会很多,这大大的影响了检索的效果。为了提高文档图像的检索性能,本研究从两个方面入手:一是进一步提高OCR系统的性能,减少分割与识别的错误;二是深入分析OCR与文档检索的特点,建立丰富的标引信息,提供灵活的检索策略,从而提高文档的召同率,同时又要能较好的抑止噪声。主要的研究内容如下:
⑴中英文混排文档的分割问题。提出了一种基于多识别引擎的集成型分割与识别方法。本文作者将所有宁符集分为相互间有交叠的6个子集合,根据分割时的不同情况,分别调用这些子集的识别引擎。另外,本文作者还提出了基于自适应特征与多级反馈的模型。通过该模型,使整个分割过程成为一个从易到难、由粗到细的过程,前期的分割识别结果将反馈至后期的较难判定的字符的分割与识别过程中,大大减少了字符分割的错误率。
⑵斜体字符的检测与识别问题。提出了一种简单实用的中文斜体字符检测方法,对散布的斜体字符有很好的效果。文档行首先被分割为一个一个的字符串块,然后假定这些字符串块是斜体,以一个固定的角度对其进行校正,接着基于垂直投影直方图特征来对假设进行验证。对判定为斜体的字符估计倾斜角。
⑶识别信度的评价问题和宁符拒识问题。对于识别信度的评估,本文作者主要讨论了基于经验规则的方法、基于贝叶斯后验概率估计的方法和基于逻辑回归的方法。对于字符拒识问题,本文作者主要考虑了两类方法,一类是基于识别信度评估的方法,另一类是利用ONE-CLASS SVM的方法。对这两类方法进行了对比实验。
⑷文档图像的检索策略与方法。充分利用了基于OCR的检索与基于内容的图像检索的特点,将两者进行了很好的结合,提出了一种自适应的文档图像标引方法,能够对识别错误有很强的自适应能力,减少了OCR错误对检索性能的影响。标引文档采用了XML文档的形式,使得文档的保存与检索都很方便。