基于深度学习的铭牌文字检测与识别方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:liu033041
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于图像的文字检测与识别技术是计算机视觉领域的重要任务之一,光学字符和自然场景文字是两类重要的辨识目标。光学字符识别是指,从扫描文档图像中,提取其中的文字信息,目前扫描文档文字识别技术已相对成熟。另一类是自然场景文字识别,提取自然场景图像中的文字,由于自然场景下背景复杂,成像质量不佳,文字样式多样,识别自然场景中的文字的难度远高于前者,目前主流的文字检测与识别方法还不足以满足实际工业应用的需求。本文聚焦于自然场景文字识别在工业领域的应用,以发动机铭牌识别为例,本文工作主要包含以下几个方面:
  1、介绍了自然场景下文字检测与识别技术的研究现状,包括目标检测,文字检测,文字识别领域的研究进展。
  2、从实际应用的角度出发,构建了一个发动机铭牌识别数据集,该数据集包括约1400张便携设备拍摄的柴油发动机铭牌图像,人工标注了图像中文字区域,以及对应的文字内容。由于柴油发动机常年工作环境恶劣,铭牌表面大多锈迹斑斑,文字包含数字、字母、符号、汉字等多种字符,以及雕刻、印刷、凸起等多种印刷形式,自然场景下拍摄的铭牌图像也无法保证较好的清晰度、固定的拍摄角度和水平的铭牌图像方向。另外,随着信息化时代的到来,在发动机检测和维修中,需要将铭牌上的信息录入信息管理系统,铭牌文字识别虽然属于简单且重复性高的工作,目前自动化程度不高,大量依赖人工识别,识别效率低下,复杂场景下人工识别精度也有限,导致企业人力成本高昂。所以该数据集具有很强的挑战性与实用价值。
  3、本文设计了一种铭牌文字检测与识别方法,主要包括两个部分:检测与识别。文字检测阶段,我们设计了一种图像方向分类网络,由分类网络得到铭牌图像大致方向信息,再结合铭牌图像中的表格边框线将铭牌调整至水平方向,解决了图像方向对文字识别部分的不利影响;其次,我们引入并改进了DB模型定位图像中的文字位置。文字识别阶段,我们引入了一种自适应图像空间变换模块,利用薄板样条变换对文字图像进行校正,解决了透视变换导致的文字区域图像变形而影响文字识别精度的问题;我们设计了一种文字识别模型,可以充分利用文字区域的视觉特征和文字本身的语义特征,改善了个别字符因铭牌表面锈迹或者拍摄不当造成的模糊而难以辨认的情况。最后,我们引入里德-所罗门纠错算法,证明了铭牌印刷阶段,在文字实例中添加少量的纠错信息,可以进一步提高文字识别的准确度。
  我们在发动机铭牌识别数据集上展开了大量实验,实验结果表明,本文提出的方法可以满足工业场景的需要。
其他文献
在信号处理中,滤波器可以用来提取或去除信号中的某些频域成分。由于易于设计实现,应用起来便捷高,数字滤波器被广泛的应用到各种信号处理领域。在一些数字信号处理领域,如数字通信系统中的信号处理、音频信号处理、生物医学信号处理等,需要具有可变频谱特性的滤波器对信号频谱进行动态的操作。这些种滤波器的实现离不开具有可变带宽的可变滤波器。较宽的带宽可变范围,较低的复杂度,灵活的参数控制是可变滤波器的设计目标。 
近年来,深度学习在计算机视觉领域取得了前所未有的成功。目前绝大多数的应用都深度依赖于大量的标签数据,这极大限制了深度神经网络的适用性。与主流的神经网络训练方法不同,一个普遍的共识是人脑的学习主要以无监督的方式进行,而监督信息则通过反馈的方式强化神经学习。尽管我们并不完全理解人脑的工作机制,但我们的目的是探索像人脑一样无监督学习的方式,它可以从大量无标签视觉内容中自动提取丰富的抽象特征,提升智能视觉
学位
近二十年来,无线通信技术有了质的飞跃,2G、3G等蜂窝移动通信网络技术已经慢慢淡出人们的视野,4G网络普及的同时,2019年第一个5G商用网络成功部署,随后5G网络也如雨后春笋般破土而出。国际电联组织的5G商用频谱范围可划分为Sub6GHz和毫米波频段。目前国内5G网络所采用的频段仍然是Sub6GHz频段,而毫米波段的研发、测试和应用也在稳步开展。5G网络主要部署场景包括室内热点、市区宏蜂窝、市区
当今社会人们的工作压力大,再加上饮食不规律、缺乏运动等不良生活方式,使得心血管疾病频发。心脏超声作为医生诊断心脏疾病的重要手段,能够直观的显示病人的心脏解剖结构和症状。基于此研究背景,如何利用计算机快速准确的处理心脏超声成为一大研究热点。近年来,深度学习算法的突破与发展极大的推动了各研究领域的变革,如汽车无人驾驶、情感识别和人脸识别等。将深度学习算法应用到心脏超声影像中能够辅助医生进行诊断、给出治
学位
目前,中国0~14岁儿童的数量约为2.2亿,其中弱视的发病率约为2%-3%。弱视严重影响儿童的日常生活,阻碍儿童身心健康发展,给儿童及其家庭造成无尽的困扰和伤害。现代医学研究表明,弱视患者接受治疗的时间越早视力恢复效果越好,12岁以下的弱视儿童经过及时治疗完全可以恢复正常。因此,实现弱视儿童早期鉴别具有非常重要的意义。作为新兴的脑功能成像技术,功能近红外光谱成像技术(Functional Near
学位
随着新一代创新技术的快速发展与广泛应用,现有的信息安全模式和理念正在面临极大的挑战,日趋复杂严峻的安全形势严重制约了我国社会信息化、数字化、网络化的进一步发展。“十四五”时期主要目标任务中强调要坚持总体国家安全观,加强国家安全体系和能力建设。作为网络空间安全和攻防对抗中至关重要的一环,异常网络流量检测系统能够实时侦测、监控、追踪和过滤可疑流量与连接,及时有效地发现、识别和防御强对抗环境下的潜在威胁
学位
多输入多输出技术(Multiple-input Multiple-output,MIMO)技术通过在发射端和接收端配备多根天线来获取空间分集增益,在不增加带宽和发送功率的情况下,提升系统传输速率和频谱效率。但是MIMO技术在带来性能增益的同时,还存在着许多问题。首先,MIMO系统发送信号时会使信号受到信道间干扰(Inter-channel Interference,ICI),其次系统在工作时需要进
计算机断层成像技术(ComputedTomography.简记作CT)是种获得物体断面的成像技术。由于人体基本组织或物体内部结构对X射线的吸收率和透射率的不同,首先使用高灵敏度的检测器对待重建物体进行扫描获得投影数据,然后将投影数据传输到计算机,最后使用计算机对投影数据进行处理,处理后即可获得待检测物体断面图像。CT成像技术在工业和医学方面发挥了关键作用,但其在实际应用中也存在一些问题:工业上,由
癫痫(Epilepsy),俗称“羊癫风”,是一种由多种病因引起的慢性脑功能障碍综合症,是继脑血管疾病之后的第二大脑部疾病。脑部神经元突发性地、反复性的异常放电会造成中枢神经系统功能的间歇性障碍,这是导致癫痫发病的根本原因。癫痫疾病的临床表现包括突然失去意识、全身抽搐和精神障碍等。对于儿童病患会在身体发育和智力发育方面受到巨大影响,更多癫痫患者是饱受生理和心理上的煎熬。  脑电图(EEG)是研究癫痫
学位
普适计算以用户为中心,追求透明地提供智能服务,其重要产物—一情景感知系统已广泛应用于智能家居、智慧医疗和智慧旅游等领域。目前,面向不同场景实现不同功能的情景感知系统层出不穷,但缺少统一的系统整体评估标准以及具体且有效的系统自适应优化方法。另一方面,在高动态智能环境下,异构采集设备的错误、网络延迟等原因导致情景信息无可避免地存在不一致性,使情景信息质量较低并影响系统做出正确的推理及决策,极大降低了用