论文部分内容阅读
在现代信息社会中,各行各业存在着大量含有重要信息的纸质表单,手动录入计算机系统花费巨大人力和物力,如何自动、快速准确地将纸质表单数字化并输入计算机是目前研究的热点。课题组针对某国际石油开采设备租赁公司大量的设备统计报表在录入ERP系统过程中花费代价巨大的问题,欲为其开发一套专用的开采设备统计报表自动录入识别系统。为此,本文提出了设备统计报表中手写体字符识别的总体方法,对报表识别系统中手写体区域难以定位和脱机手写体数字难以获得高识别率的两大关键问题进行了研究。主要内容包括: (1)针对某国际石油公司的设备统计报表,提出了报表预处理、表格线处理和兴趣域定位的报表版面分析方法。首先,通过分析对比报表预处理中常用的方法,本文采用最佳熵梯度调整阈值对图像进行二值化分割,中值滤波滤除噪声,Hough变换对表格进行倾斜校正。然后采用搜索法提取表格线并对表格线进行细化和合并处理。最后采用基于特征点的方法提取表格单元信息。实验结果表明经过报表版面分析之后,可以准确定位报表的手写体区域。 (2)针对手写体数字识别率较低的问题,提出了一种基于距离核主成分分析的脱机手写体数字识别方法。首先,通过距离核函数建立起输入空间与高维隐特征空间之间的关系,然后在隐特征空间进行主成分分析,最后采用BP神经网络分类器得到识别结果。在MNIST数据库上的实验结果表明,与传统的主成分分析相比,基于距离核的核主成分分析方法可以得到较高的识别率,运算时间比主成分分析方法明显减少。 (3)为了解决(2)中核主成分分析方法在处理大样本数据时计算代价巨大的问题,提出了一种基于改进核主成分分析的脱机手写体数字识别方法。改进后的核主成分分析方法在隐特征空间中利用K均值聚类算法将映射样本集分成若干子集的方式从而减小核矩阵尺寸、降低计算量。由于BP神经网络存在容易陷入局部极小等缺点,故最终采用支持向量机(SVM)作为分类器。在MNIST数据库上的实验结果表明,改进后的核主成分分析结合SVM分类器的方法识别手写体数字,可以得到较高的识别率,相对于核主成分分析,改进后的核主成分分析特征提取速度加快。 (4)为了克服核主成分分析方法在结构特征提取方面的不足,并进一步提高手写体数字的识别精度,提出了改进的卷积神经网络(CNN)的脱机手写体数字识别方法。改进的方法利用CNN作为自动特征提取器,SVM作为分类器提高网络的泛化能力。网络中的学习算法仍然采用BP算法,但在传统的BP算法中引入了二阶方法,加快网络误差的下降速度。在MNIST数据上进行实验,相比其他方法如SVMs、LeNet5、核主成分分析等在此数据库上的实验结果,改进后的卷积神经网络收敛速度快,而且识别率高达到了99.18%。