论文部分内容阅读
手写汉字识别是模式识别领域中复杂而具有挑战性的一项重要课题。对人工智能,模式识别,计算机理论,心理学,语言学等领域有着重大的影响。虽然目前手写汉字识别的产品很多,但是多数是基于PC机的联机手写汉字识别或基于OCR技术的脱机字符识别。随着PDA,掌上电脑及手写手机的兴起和普及,对于基于嵌入式系统的手写技术的要求也就日益突出。
本课题是在S3C2410A硬件平台上构建了一个嵌入式联机手写体汉字输入、识别、显示系统。本系统以触摸屏作为基本的信息输入设备,完成图像的采集、信息的输入等,用三星公司的制造的一款型号为LQ3600-PE1的3.5寸TFT液晶屏作为输出。采集数据及数据预处理方法是:当触摸屏幕时,在规定时间内尽量采集数据,而不规定采集的次数,并且将所采集的数据都存到320*240的数组中,最后将采集的数据进行滤波,膨胀,腐蚀和细化等处理。这种做法的优点在于:尽量避免了由于抖动,书写的速度快而造成的数据丢失。
汉字特征直接反映着汉字形体整体或局部分布状况,良好的特征应该使同一种汉字的不同书写样本之间的差异性尽可能小,而在不同汉字之间的差异性尽可能大,根据手写体汉字的特点,对特征提取进行了分析研究,提出了,粗外围的特征、背景特征、弹性网格全局方向特征和层次轮廓特征,实验表明所提取的几种特征是有效的。
最小距离分类器在特征空间中,用一个基准模板作为某一模式类的代表,把待识别样本的特征向量与此基准模板之间的距离作为实现分类判决的依据。在统计模式识别方法中,往往把各类特征向量的统计平均值作为该类模式的基准模板,各待识别别样本的特征向量与此基准模板进行比较。用于比较的距离度量,根据问题的不同,可以有多种选择。本文提出了多级分类的并-串集成策略作为判别的方法。本系统以粗外围特征和背景特征作为粗分类的特征,分别用街区距离和欧式距离作为此特征判别的方法作为第一级粗分类特征。提取全局方向网格特征作为第二级粗分类特征。细分类特征采用层次轮廓特征,用局部最优匹配作为此特征判别,实现细分类功能。