多方向及任意形状的场景文本检测关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:luo6411465
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着以卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)为代表的深度学习的兴起,场景文本检测的研究取得了新的发展。然而,由于以下两个因素的存在,场景文本检测仍是一项?分具有挑战性的任务。其一,自然场景中的图片往往具有复杂的背景,这很容易对检测过程造成干扰。其二,自然场景中文本的形态?分多样,水平文本和倾斜文本、直线型文本和曲线型文本可能同时存在于一张场景图片中。为了更好地解决多方向及任意形状的场景文本检测问题,本文在Mask R-CNN的基础之上对此问题的关键技术进行了研究,并提出了两个算法。本文主要内容如下:(1)针对场景图片背景中类似文本的物体容易被误分类为文本的问题,本文提出了融合注意力机制和实例分割的场景文本检测算法。在Mask R-CNN的基础之上,本文提出了一种新的注意力机制模块——文本上下文感知注意力模块(Text-context-aware Attention Module,TCAM)。TCAM同时运用了通道注意力机制和空间注意力机制,并通过相加把这两种形式的注意力机制结合了起来。在该算法的网络架构中,TCAM被衔接到了原始的Mask R-CNN的特征金字塔的每一层之后。TCAM能够有效抑制类似文本的背景物体产生的负正例检测框,从而提升了检测性能。该提出的算法在ICDAR2015和ICDAR2017-MLT这两个数据集上分别取得了84.60%和70.20%的F值。(2)为了更好地应对场景文本的尺度变化,本文进一步提出了基于多层次特征融合的场景文本检测算法。在Mask R-CNN的基础之上,本文提出了金字塔特征融合模块和多层Ro I特征融合模块来改进原始的Mask R-CNN中特征金字塔的构建方式和利用方式,来提高算法应对文本尺度变化的能力。金字塔特征融合模块同时使用了自顶向下和自底向上两条特征融合路径,使浅层和深层特征的信息得到了充分的交换与融合。这种融合方式同时增强了用于检测小文本的浅层特征和用于检测大文本的深层特征的表达能力,同时提高了小文本和大文本的检测性能。多层Ro I特征融合模块结合了特征金字塔中的所有层次的特征图来为文本候选区域抽取用于预测的特征,这使得抽取的特征能够更好地突出文本实例的局部与全局特性,进一步提高了算法的整体检测性能。最后,该算法在骨干网络中利用了可变形卷积,使得算法应对文本尺度变化的能力得到进一步强化。该提出的算法在ICDAR2013、ICDAR2015、ICDAR2017-MLT和SCUT-CTW1500这四个数据集上分别取得了93.01%、87.80%、76.39%和84.15%的F值。
其他文献
随着人口老龄化现象和空巢老人数量的增加,家庭服务机器人成为研究热点。机器人对人类情感的自主分析有助于为人类提供更好的服务。在日常生活中,由于我们对情感信息的获取多
物体入水问题有着广泛的工程应用背景和重要的科学研究意义,由于其涉及气、液、固三者之间的耦合作用,在砰击过程中,近自由液面处的强非线性、强非定常性流动使人们对该问题
本文利用2013-2017年6-8月FY2E和FY2G卫星中的相当黑体温度(Black Body Temperature,简称TBB)资料、NCEP/NCAR分析资料,以及逐时降水量资料,对我国夏季东北冷涡下东北地区中尺度对流系统(Mesoscale Convective System,简称MCS)的时空分布和环境场特征进行了统计分析,然后利用WRF中尺度数值模式对2016年7月25日一次典型东北
中国正经历百年未有之大变局。而抓住历史机遇期,建设现代高等教育强国是中华民族伟大复兴的基础工程,事关国家和民族的未来。其中,推动当代大学实现内涵式发展是建设教育强
随着生活水平的提高,家电行业发展迅猛,相应的钣金件的需求量日益增大。本文中所研究的成形的钣金件主要来源于家电行业。目前CAD模具技术已广泛应用于钣金模具设计中,但是依然存在设计过程繁琐,重复操作多,设计结果关联性差,编辑难度高等诸多问题[1-2]。本文结合实际企业的生产需求,设计了一套钣金件成形工序自动生成系统,并由工序生成的结果去驱动钣金件冲压模具的自动化设计,保证模具质量的同时,很大程度上简化
实验背景:二维纳米材料具有独特的物理化学性能,得到广泛研究,特别是石墨烯的产生。近年来,研究发现,许多二维纳米材料具有良好的生物安全性,这使得二维纳米材料在生物医药应用具有巨大的潜能。目前用于研究癌症治疗的二维纳米材料有过渡金属二硫化物、黑磷、二维过渡金属碳化物或碳氮化物、层状双氢氧化物等。硒化锑(Sb2Se3)纳米片是新剥离出的二维材料,由于二维材料的相似性,将探究其生物应用价值。实验目的与方法
我国是一个瓜果蔬菜的消费大国,拥有广袤的国土面积,但是可耕种土地较少,且大部分的耕种土地用来生长粮食,瓜果蔬菜的种植面积不足,传统的种植方式无法满足人们对于瓜果蔬菜
巷道作为地下交通的一种,具有运矿、通风、排水、行人等功能,由于其不占用地表面积,且造价成本合理等原因,深受地下工程重视。但是巷道往往会因为开挖、撞击等原因,产生瞬时性的弹性破坏;同时还可能因为围岩为软岩,产生使得应力和位移随时间推移逐渐变大,直至围岩破坏的粘弹性破坏。两种破坏都会影响工程的安全施工,所以十分有必要对其进行分析研究。本文首先采用复变函数理论对无衬砌巷道围岩的弹性解进行了研究,并应用A
板类构件在工业领域应用非常广泛,尤其是不规则板件,如曲面板件,变厚板件,在航天航天、汽车装备和船舶化工等各行各业发挥着重要的的作用。但是,由于板类构件在加工过程中需要加热、穿孔、高速挤压等多重工艺的影响,难以避免出现裂纹、气孔等缺陷,这些缺陷的存在给工业生产带来了巨大的安全隐患,故针对板类构件的无损检测方法研究具有极其重要的意义。本文针对板类构件,采用阵列导波换能器进行检测方法研究,论述了阵列导波
灾害性天气的集合预报是目前数值天气预报的研究热点,对保障人民生命财产安全有重要的意义。本文对一次冷涡暴雨过程基于传统增长模繁殖法(BGM)和集合变换卡尔曼滤波法(ETKF)开展集合预报试验,研究了不同初始扰动方法在区域集合预报中的表现。随后基于天气系统在发生发展过程中的局地差异性,引入局地增长模繁殖法(Local Breeding Growth Mode,Local-BGM)生成初始扰动,进行集合