中英文混排文档的识别与检索

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:axcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于OCR的图文库检索方法有非常广泛的应用前景。将纸质文档以图像方式保存,但却利用文档图像的文字识别结果进行检索,这使得纸质文档的保存与检索都非常方便。但出于OCR的识别结果并非完全正确,特别是对于有些图像质量较差的文档或多语种混排文档,识别错误会很多,这大大的影响了检索的效果。为了提高文档图像的检索性能,本研究从两个方面入手:一是进一步提高OCR系统的性能,减少分割与识别的错误;二是深入分析OCR与文档检索的特点,建立丰富的标引信息,提供灵活的检索策略,从而提高文档的召同率,同时又要能较好的抑止噪声。主要的研究内容如下:   ⑴中英文混排文档的分割问题。提出了一种基于多识别引擎的集成型分割与识别方法。本文作者将所有宁符集分为相互间有交叠的6个子集合,根据分割时的不同情况,分别调用这些子集的识别引擎。另外,本文作者还提出了基于自适应特征与多级反馈的模型。通过该模型,使整个分割过程成为一个从易到难、由粗到细的过程,前期的分割识别结果将反馈至后期的较难判定的字符的分割与识别过程中,大大减少了字符分割的错误率。   ⑵斜体字符的检测与识别问题。提出了一种简单实用的中文斜体字符检测方法,对散布的斜体字符有很好的效果。文档行首先被分割为一个一个的字符串块,然后假定这些字符串块是斜体,以一个固定的角度对其进行校正,接着基于垂直投影直方图特征来对假设进行验证。对判定为斜体的字符估计倾斜角。   ⑶识别信度的评价问题和宁符拒识问题。对于识别信度的评估,本文作者主要讨论了基于经验规则的方法、基于贝叶斯后验概率估计的方法和基于逻辑回归的方法。对于字符拒识问题,本文作者主要考虑了两类方法,一类是基于识别信度评估的方法,另一类是利用ONE-CLASS SVM的方法。对这两类方法进行了对比实验。   ⑷文档图像的检索策略与方法。充分利用了基于OCR的检索与基于内容的图像检索的特点,将两者进行了很好的结合,提出了一种自适应的文档图像标引方法,能够对识别错误有很强的自适应能力,减少了OCR错误对检索性能的影响。标引文档采用了XML文档的形式,使得文档的保存与检索都很方便。
其他文献
掩模传输系统是光刻机的重要外围设备,它承担着掩模版传输和预对准的任务。本文围绕着掩模传输系统的功能要求,对掩模传输系统中的运动控制和预对准方法进行了研究。主要内容包
视觉伺服是机器人控制中的一种重要方法,也是计算机视觉领域的研究热点之一。基于图像的视觉伺服方法通常选用角点、边线、孔洞或重心等明显的几何信息作为视觉特征,伺服过程中
学位
提高锅炉的燃烧效率和稳定性对于国民经济的能源供给有着重大的意义。锅炉燃烧器处的射流温度场以及整个锅炉温度场是反映锅炉燃烧状态的重要的指标,结合目前日益成熟的火焰图
FlexRay是为汽车控制系统设计的通信协议,较全面地定义了一个网络化汽车通信过程的信息格式和功能,具有良好的可靠性、可用性、灵活性以及传输速率等汽车系统要求的关键指标。
在实际信号处理过程中,观测信号总是混杂着干扰和噪声,对信号处理的检测与估计结果有很大影响。因此,信号处理的一个基本任务就是将混杂在噪声和干扰中的有用信号准确地检测和估
客户关系管理是一个系统性的工程,是技术和管理相结合的产物。作为企业信息化的最新发展,客户关系管理实现了企业由以产品为中心向以客户为中心的转变,客户首次作为一种资源纳入
随着数字技术与计算机技术的迅速发展,数字音频工作站(Digital Audio workstation,简称DAW)出现,并且迅速替代了传统音频工作站,在广电领域内占据重要位置。广播电台的稳定性
自动人脸识别的研究有着重要的学术价值和广泛的应用前景。本文沿着统计学习与融合的思路对人脸识别中的对齐、特征表达和分类器的训练及构造三个关键问题进行了深入的研究。
随着电子通信技术的高速发展,特别是近年来移动互联网技术的发展与普及,人们对高性能、多功能、低功耗移动终端的需求更加迫切。但是随着移动终端功能的不断增多、处理性能的