基于深度学习的自然场景文本识别系统的设计与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:hansenhuang1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机的普及以及互联网的迅速发展,通过手机,平板电脑等移动终端摄像头获取、处理和分享信息已经逐渐成为一种非常流行的生活方式。基于摄像头的(Camera-based)的应用程序更加注重对拍摄场景的理解。一般,在文本和其他对象同时存在的场景中,往往用户会更加关注自然场景中的文本内容,因此如何能够准确,快速的识别自然场景中的文本,对用户拍摄的意图和作品的主题会有更加深入的理解。然而,关于自然场景图像文本识别的研究还很少,相关算法也很不成熟,急需进一步的研究和探索。本文在深入分析这方面进展的基础上,探究自然场景图片中文字识别的多种方案,并结合深度学习技术设计和实现一个完善的自然场景图片文字识别系统。本文所研究的系统是一个自然场景文字识别系统,能够自动识别出自然场景图片中包含的文本信息。该系统由图像预处理模块、无监督特征学习模块、CNN字符检测模块、CNN字符分类模块和文本行检测模块组成。图像预处理是对图像进行对比对归一化,主成分分析以及白化操作从而进行无监督特征学习,学习到字符的特征词典。字符检测和字符识别使用了两个结构不同的卷积神经网络实现。字符检测模块中卷积神经网络的第一层卷积核是采用无监督特征学习方法得到的。该神经网络的输出连接到线性的支持向量机,作为判断该像素块是否为字符的分类器。字符识别模块结构与字符检测模块类似,唯一的区别是最后连接的是多层感知机。对于一幅图片,先通过CNN字符检测模块计算每一个像素块的得分,然后使用非极大值抑制算法定位出图像中的文本行。最后对文本行中的字符位置使用CNN字符识别模块计算字符分类得分,并在词表中搜索最佳单词。所实现的自然场景图像文字识别系统经测试满足用户功能性需求。为评估系统性能,本文所实现的识别系统在测试样本集上进行测试,结果表明总体性能满足预期目标:字符检测的训练识别率为94.47%,验证识别率为93.47%;字符识别的训练识别率为98.87%,验证识别率74.22%。
其他文献
摘要:随着社会的不断进步和发展,当今女性对能否在就业领域受到平等对待愈发关注。女性就业权能否真正在社会实践中实现已经不只是某个群体的合法权益是否受到保护的问题,深究
近年来,纳米材料得到了人们越来越多的关注,逐渐成为了一个新的研究热点。随着人类技术的不断进步和发展,纳米纤维被越来越多的应用于生活的方方面面,而静电纺丝作为一种高效的纳
高校学生党员队伍建设是高校基层党建工作的重要内容之一,新时代背景下扎实推进高校学生党员队伍建设及教育工作是优化党员结构、培养社会主义事业合格建设者及接班人的重要
在供应环节管理的高度信息化的大环境中,其运营过程作为整个供应体系中的关键环节,其运作往往是一项复杂、精细、统一的运营管理项目,它直接体现了公司材料存量状况和公司的
自工业革命以后,生产方式的转变就不断影响着艺术及工艺的发展,随之展开了诸如工艺美术运动、新艺术运动等的革命性活动,到20世纪初,各地有关现代设计教学的专业院校开始兴起,
高职教育集团化办学是我国经济社会发展的客观要求,也是高职教育发展的必然趋势.总结了四川职业技术学 院职教集团化发展的经验,分析了存在的问题,提出了改进的措施,该项研究
商标在先使用权是指他人在提出注册申请日之前,未注册商标使用人就己经在该商标注册核定使用的商品或服务或者类似商品或服务上善意且连续地使用与注册商标相同或近似的商标,
目的 :制备复方单硝酸异山梨酯缓释片并考察其工艺条件。方法 :以乙基纤维素为骨架材料 ,分别制备单硝酸异山梨酯和阿司匹林 (ASA)骨架缓释颗粒 ,进行薄膜包衣控制两种药物同
为了有效加强集控站操作票的管理,提高工作效率,降低开票出错率,在分析网络化微机开票系统技术特点以及微机操作票推理机制的基础上,开发出基于网络拓扑结构和开关控制逻辑的