论文部分内容阅读
随着手机、平板电脑、电子白板、数码笔等移动终端设备的进步和广泛应用,联机手写输入得到了越来越多的应用和关注,这些手写设备的应用也生成了大量的联机手写文档,对联机手写文档的分析和识别对于手写笔记文档的电子化、分析和检索具有重要的意义,同时,实时快速的手写文本输入方法也成为当前的应用需求之一。针对当前广泛的应用背景,本文研究联机中文手写文本识别方法,旨在融合手写文本识别中的上下文信息,提高文本识别的识别率,同时针对手写文本输入的需求,研究联机手写文本实时识别方法。本文主要工作和贡献如下:
(1)为了支持无约束中文手写识别方面的研究,收集整理了一个大规模的联机手写数据库:CASIA-OLHWDB,该数据库在2011年的国际文档分析与识别会议上发布,免费供学术界使用。为处理联机手写数据,本文研制和设计了联机手写数据库标定工具,对联机数据库进行字符级别的标定。该数据库同时包括单字(DB1.0~1.2)和文本数据(DB2.0~2.2),由1020个人书写,单字样本库包含3,912,017个样本(7356类),文本样本库包含5,092个页面文档(包含52,221个文本行,共1,348,969个字)。该数据库可用于文档分割、手写字符识别、文本行识别、文档检索、书写人自适应和笔迹鉴别等多方面的研究。
(2)为了在手写文本行识别中更好地融合单字分类器和上下文信息,本文比较了多种分类器置信度转换方法,提出了两种改进的类别相关置信度参数估计,并提出了在字符串级别学习置信度参数的方法。实验表明,通过基于最小分类错误(MinimumClassificationError,MCE)的字符串级别的置信度参数估计,能有效提高文本行识别正确率。
(3)为满足当前手写设备进行手写输入的需求,提出了一种中文手写句子实时识别方法,并实现该系统。该方法的核心思想是切分-识别候选网格在书写过程中进行动态更新。该方法允许用户连续书写并在书写过程中实时识别,提高了输入速度。同时,充分利用了语言上下文,相比单字识别能得到更高的识别正确率。实验结果证实了本方法的有效性和实用性。