基于深度学习的场景文字识别研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:sfgidtfdxv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文字识别是一种通用文字识别技术,近年来其已经成为计算机领域重点的研究方向。传统光学字符识别技术(Optical Character Recognition,OCR)在文档图像方面已经取得了很好的识别效果,但却难以应对场景文字在字体、分布、背景等方面的复杂性。近年来深度学习技术快速发展,并且在OCR领域里发挥了主导作用,因此本文基于深度学习方法,围绕场景文字识别问题展开研究,主要研究内容如下:(1)提出了一种文本图像矫正方法。针对文本行倾斜问题,提出了一种基于连通区域分析的倾斜矫正方法。该方法首先获取输入图像的连通区域,然后根据字符的比例、大小等先验知识过滤非字符连通区域,最后通过计算连通区域间的倾斜角度来估算文本行倾斜角度。实验结果表明,所提方法能够有效提升相同框架的识别性能。(2)设计一种序列到序列的文字识别网络。在卷积循环网络(Convolutional Recurrent Neural Networks,CRNN)网络的基础上,本文首先利用所提出的图像矫正方法对输入图像进行矫正,降低问题复杂度;其次将CRNN中的卷积部分加入BN层,在提高卷积神经网络的收敛速度、降低网络对初始化权重的敏感程度的同时,还起到正则化作用,提升了系统性能;然后将CRNN中使用的长短期记忆网络替换为门控循环单元,降低了网络的复杂度。实验表明,与原框架相比,在降低网络时间和空间复杂度的同时,所提框架能够有效提升场景文字的识别性能。(3)设计一种基于注意力机制的序列到序列场景文字识别方法。首先,针对连续时序分类方法的不足之处,在序列解码阶段,将连续时序分类替换为基于注意力机制的解码器。其次,针对网络特征提取能力的不足,在本框架中将特征提取网络替换为ResNet网络。最后,在改进框架下,验证本文所提的文本行矫正方法可以提升系统的识别性能。实验结果表明,在COCO-Text数据集上达到了较好的效果。
其他文献
《高速铁路桥隧建筑物修理规则》(试行)中对钢管混凝土拱桥检测项目、内容及深度未进行重点阐述,日常管理养护中巡检人员也仅仅对其表观缺陷进行目测,检测重点不明确、深度不
安全评价在煤矿企业中显得极为重要,常用的安全评价方法有事件树分析法、事故树分析法、安全检查表法、预先危险性分析法、概率安全评价法等,在选择安全评价方法时,要综合考虑多
硼掺杂金刚石在理论上被证实具有超导电性,被视为一种潜在的超硬多功能材料。但是现在对于硼掺杂金刚石的研究多集中在低浓度(硼占0.02-0.06%)的情况,对于富硼的硼掺杂金刚石
为了满足人们对移动通信系统速度、可靠性和未来业务环境的需求,第五代(5G)移动通信网络应运而生。其中大规模多输入多输出天线系统(Massive Multiple Input Multiple Output
明治维新初期,日本政府是为了获得统治正统性不得不依赖尊王论。其后,明治政府一面向知识阶层宣传天皇是“开明专制”的实权之君,一面又向普通民众宣传天皇是创世神的子孙,日
科技的日新月异、经济的快速增长、人们生活水平的不断提高、物质及精神文明的极大丰富,都源于能源提供的强大动力。电能的清洁、方便、高效、可控等特点引导着众多能源向电
作为哲学中的一个重要领域,数学哲学紧密连接着哲学和数学,它积极地推动着哲学学科和数学学科的研究和发展。而维特根斯坦的数学哲学之所以不可绕过,不仅是因为他平生留下了
天然免疫系统的作用机制是依靠模式识别受体(PRRs)对病原体相关分子模式(PAMPs)进行识别,从而在病原体识别和保护性免疫应答启动中发挥关键作用,有助于宿主防御微生物感染。核酸分子包括RNA和DNA是非常重要的PAMPs,对病毒而言更是如此。RNA病毒对人类和动物健康构成严峻的挑战,因此了解RNA受体的免疫生物学对于控制病毒感染至关重要。RNA受体由TLR3,TLR7,TLR8,RIG-I,MD
2016年以来,广西北海市国土资源局采取多项措施,进一步提高重点项目建设用地保障能力,切实提高国土资源保障水平。一是主动对接,做好项目用地指导。为确保项目用地工作按时推进,该
随着信息技术的发展和人口流动性的增强,匿名社会已经到来,人与人的信任度受到挑战,社会对公民身份号码的治安防控功能提出了新的期许。通过文献研究法、案例分析法、比较研究法等方法,在研究公民身份号码特征的基础上,探讨公民身份号码的治安防控功能,查找公民身份号码使用中存在的问题,提出充分实现公民身份号码治安防控功能的对策,有利于为维护社会治安秩序提供有益借鉴。公民身份号码的本质属性与唯一性、终身性、辨识性