联机中文手写文本识别方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:woxiaosong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着手机、平板电脑、电子白板、数码笔等移动终端设备的进步和广泛应用,联机手写输入得到了越来越多的应用和关注,这些手写设备的应用也生成了大量的联机手写文档,对联机手写文档的分析和识别对于手写笔记文档的电子化、分析和检索具有重要的意义,同时,实时快速的手写文本输入方法也成为当前的应用需求之一。针对当前广泛的应用背景,本文研究联机中文手写文本识别方法,旨在融合手写文本识别中的上下文信息,提高文本识别的识别率,同时针对手写文本输入的需求,研究联机手写文本实时识别方法。本文主要工作和贡献如下:   (1)为了支持无约束中文手写识别方面的研究,收集整理了一个大规模的联机手写数据库:CASIA-OLHWDB,该数据库在2011年的国际文档分析与识别会议上发布,免费供学术界使用。为处理联机手写数据,本文研制和设计了联机手写数据库标定工具,对联机数据库进行字符级别的标定。该数据库同时包括单字(DB1.0~1.2)和文本数据(DB2.0~2.2),由1020个人书写,单字样本库包含3,912,017个样本(7356类),文本样本库包含5,092个页面文档(包含52,221个文本行,共1,348,969个字)。该数据库可用于文档分割、手写字符识别、文本行识别、文档检索、书写人自适应和笔迹鉴别等多方面的研究。   (2)为了在手写文本行识别中更好地融合单字分类器和上下文信息,本文比较了多种分类器置信度转换方法,提出了两种改进的类别相关置信度参数估计,并提出了在字符串级别学习置信度参数的方法。实验表明,通过基于最小分类错误(MinimumClassificationError,MCE)的字符串级别的置信度参数估计,能有效提高文本行识别正确率。   (3)为满足当前手写设备进行手写输入的需求,提出了一种中文手写句子实时识别方法,并实现该系统。该方法的核心思想是切分-识别候选网格在书写过程中进行动态更新。该方法允许用户连续书写并在书写过程中实时识别,提高了输入速度。同时,充分利用了语言上下文,相比单字识别能得到更高的识别正确率。实验结果证实了本方法的有效性和实用性。
其他文献
在体监测细胞分子水平的分子探针与生物参数,是分子影像相比于传统医学影像技术的显著进步。随着研究与应用的纵深拓展,微量探针的多功能检测与生物参数的多角度跟踪,成为分
在2007年美国次贷危机爆发之后,关于金融系统稳定性的问题再一次受到全球的关注。银行作为金融市场最重要的中介机构,其安全性尤为重要。银行挤兑是一种非常重要的经济现象。严
随着人们对行驶安全性与舒适性等汽车性能要求的提高,各国对车辆智能驾驶以及各种驾驶员辅助系统的研究也逐步深入。汽车自适应巡航控制(ACC)系统是先进车辆控制系统开发的一
月球车任务规划系统是地面遥操作系统的重要组成部分,其主要功能是给定初始位置和目标位置,满足月面地形约束、机动性能约束、通信可见性约束、能量约束及动作间逻辑关系约束
复杂网络经过十余年的发展已经成为一门较为成熟的学科,它涉及的研究内容广泛,是结合物理、数学、生物、社会等方面研究的交叉型学科。它的研究方法传统,但可以解决新颖的社会问
在室内环境中实现定位功能可以提高很多室内应用系统的自动化和智能化水平,给人们的工作和生活带来便利。无线传感器网络中节点体积小、能耗低、布置方便,为实现室内定位提供
肝脏是人体最大的实质性脏器,在新陈代谢中有重要作用。全世界每年肝癌死亡人数达到一百万,肝癌的死亡率位居我国癌症死亡率第二位,是严重影响人民健康水平的疾病。传统的肝
随着即时通信系统的不断普及和推广,即时通信系统的研究也越来越受到大众的关注。即时通信系统的出现,增加了人与人之间的交互的便利性,大大提升了人们工作和学习的效率。这种新
直线电机是一种直接将电能转化为直线运动的机电装置,与旋转电机相比较,直线电机具有推力大、速度快、结构简单、运行效率高等特点。随着加工技术以及材料学的发展,具有“高响应
换热网络全周期运行期间,由于设备老化等因素,换热性能逐步下降,能耗逐步提高。而当前工业换热网络的设计并没有有效地解决此问题。换热网络结垢老化是一个慢时变过程,相对于