论文部分内容阅读
文字识别作为模式识别的一个重要应用领域,在过去的几十年中已经取得了非凡的成就。单个字符的识别率非常高,已经达到了实际应用的需要,并被广泛地应用于电脑汉字输入、手机、PDA等产品。随着时间的推移,单字识别已经无法满足人们的需要。整行文字、整段文字甚至整篇文本的识别已经成为人们新的需求。
整行文字的识别即字符串的识别是整篇文本识别的基础。虽然前人在字符串识别的研究领域做了大量的工作,但是时至今日,字符串的识别仍然没有达到实际应用的需要,还存在着识别精度不高、切分错误多、识别效率低等缺点和不足。字符串识别的主要难点是字符在被识别之前不能准确地切分,一般的解决方法是把字符切分和识别统一起来,通过组合搜索得到最优的切分和识别结果。本文主要针对字符串识别中的识别精度和搜索效率问题展开研究,并将有关方法用于日文手写字符串识别。
本文的工作主要包括以下三个方面:
一、本文将几何上下文信息与单字识别信息和语言上下文信息一起加入到字符串识别系统的路径评价准则,包括单字几何信息(一元几何信息)和字间几何信息(二元几何信息),提高了字符串的切分和识别精度,取得了很好的效果。
二、针对目前基于联合切分识别方法的字符串识别系统在搜索最优路径方面存在的搜索效率问题进行了研究,实现了字符同步搜索和时间同步搜索两种模式,并对这两种模式进行了深入分析和比较;同时提出一种改进的路径评价准则,使得动态规划算法可以应用于字符串识别过程中的最优路径搜索。
三、字符串识别系统中所用到的各种评价信息在度量尺度上不统一,本文采用置信度转换的方法,将分类器的输出(距离相似度量)转换成概率的形式,使参数调整更为方便。