报表版面分析及脱机手写体数字识别方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wjlwny110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代信息社会中,各行各业存在着大量含有重要信息的纸质表单,手动录入计算机系统花费巨大人力和物力,如何自动、快速准确地将纸质表单数字化并输入计算机是目前研究的热点。课题组针对某国际石油开采设备租赁公司大量的设备统计报表在录入ERP系统过程中花费代价巨大的问题,欲为其开发一套专用的开采设备统计报表自动录入识别系统。为此,本文提出了设备统计报表中手写体字符识别的总体方法,对报表识别系统中手写体区域难以定位和脱机手写体数字难以获得高识别率的两大关键问题进行了研究。主要内容包括:  (1)针对某国际石油公司的设备统计报表,提出了报表预处理、表格线处理和兴趣域定位的报表版面分析方法。首先,通过分析对比报表预处理中常用的方法,本文采用最佳熵梯度调整阈值对图像进行二值化分割,中值滤波滤除噪声,Hough变换对表格进行倾斜校正。然后采用搜索法提取表格线并对表格线进行细化和合并处理。最后采用基于特征点的方法提取表格单元信息。实验结果表明经过报表版面分析之后,可以准确定位报表的手写体区域。  (2)针对手写体数字识别率较低的问题,提出了一种基于距离核主成分分析的脱机手写体数字识别方法。首先,通过距离核函数建立起输入空间与高维隐特征空间之间的关系,然后在隐特征空间进行主成分分析,最后采用BP神经网络分类器得到识别结果。在MNIST数据库上的实验结果表明,与传统的主成分分析相比,基于距离核的核主成分分析方法可以得到较高的识别率,运算时间比主成分分析方法明显减少。  (3)为了解决(2)中核主成分分析方法在处理大样本数据时计算代价巨大的问题,提出了一种基于改进核主成分分析的脱机手写体数字识别方法。改进后的核主成分分析方法在隐特征空间中利用K均值聚类算法将映射样本集分成若干子集的方式从而减小核矩阵尺寸、降低计算量。由于BP神经网络存在容易陷入局部极小等缺点,故最终采用支持向量机(SVM)作为分类器。在MNIST数据库上的实验结果表明,改进后的核主成分分析结合SVM分类器的方法识别手写体数字,可以得到较高的识别率,相对于核主成分分析,改进后的核主成分分析特征提取速度加快。  (4)为了克服核主成分分析方法在结构特征提取方面的不足,并进一步提高手写体数字的识别精度,提出了改进的卷积神经网络(CNN)的脱机手写体数字识别方法。改进的方法利用CNN作为自动特征提取器,SVM作为分类器提高网络的泛化能力。网络中的学习算法仍然采用BP算法,但在传统的BP算法中引入了二阶方法,加快网络误差的下降速度。在MNIST数据上进行实验,相比其他方法如SVMs、LeNet5、核主成分分析等在此数据库上的实验结果,改进后的卷积神经网络收敛速度快,而且识别率高达到了99.18%。
其他文献
因为具有灵活的约束处理能力和良好的控制性能,预测控制过去30年在过程工业中得到了成功应用。目前,预测控制的应用主要依靠工业控制计算机和专用控制软件,其实施和维护都需要专
随着机器人技术的不断发展,机器人的应用领域也越来越广泛,机器人在服装设计和网络购物中开始得到应用。模特机器人是应用于服装设计和网络购物的一类仿人机器人,它可以通过控制
在选矿生产过程中,企业生产指标对不可再生的矿物原料资源利用率、选矿企业产品的质量和经济效益是非常重要的。选矿过程的工况变化频繁,参数时变、关键生产指标不能在线实时
随着数码相机、数字摄像机和手机摄像头等数码产品的日益普及,人们获取图像和视频的方式越来越多,图像和视频的数量急剧增长。而个人PC和互联网的快速发展,使得图像和视频成为日
自动轨道系统(EMS,Electric monorail system)是一种轨道式物流输送系统,广泛应用于生产制造,尤其是自动化装配线中,有效的提高了装配效率与装配质量。本文以变速器装配线为应用
在不确定环境下进行知识学习与推理是智能行为的基础。互联网的快速发展使得信息的采集、传播速度和规模达到空前的水平,数据量呈现爆炸式增长,人类已经进入大数据时代。有效地
由于具有独特的结构布局和飞行方式,四旋翼飞行机器人能够垂直起降、悬停以及快速转变航向,并且具有良好的敏捷性和操控性,所有这些优秀特性的存在,使得四旋翼飞行机器人系统迅速
随着Internet的迅猛发展,网络得到广泛的应用,越来越严重的拥塞问题随之暴露出来。网络拥塞控制能有效的提高网络性能,是保证Internet稳定运行的关键因素之一。作为端到端拥
微生物发酵是典型的以间歇生产方式为主的技术性密集型产业,涉及到医药、食品、饲料、轻化工、环境治理等众多的工业领域,在国民经济中的地位日趋重要。随着上述行业的迅速发展以及市场竞争对多品种、小批量和高质量的需求,对于发酵过程进行控制和优化的要求也越来也迫切。然而,与一般的物理和化学过程相比,发酵过程有着迥然不同的动力学特征,如动力学模型呈高度的非线性和强烈的时变性、大多数生物状态变量难以在线测量、过程
PCS颗粒测量技术中颗粒粒度反演一直是一个重要而有魅力的研究课题,而正则化方法作为广泛采用的方法,其性能取决于正则化参数和正则化算子。如何决定合适的正则化参数及如何