【摘 要】
:
随着信息技术与人工智能的发展,人们在日常生活中接触到的图片越来越多。图片中包含了大量的信息,因此通过文本检测与识别提取图片中的信息变得尤为重要。伴随着计算机视觉技术的快速发展,提高了人们对自然场景文本信息的检测与识别的要求。自然场景文本检测是从背景复杂的图片中得到文字的位置信息。通过检测与识别自然场景中的文本可以应用于工业自动化、车牌识别、智能机器人、智能翻译等领域。准确快速地检测场景文本成为科研
论文部分内容阅读
随着信息技术与人工智能的发展,人们在日常生活中接触到的图片越来越多。图片中包含了大量的信息,因此通过文本检测与识别提取图片中的信息变得尤为重要。伴随着计算机视觉技术的快速发展,提高了人们对自然场景文本信息的检测与识别的要求。自然场景文本检测是从背景复杂的图片中得到文字的位置信息。通过检测与识别自然场景中的文本可以应用于工业自动化、车牌识别、智能机器人、智能翻译等领域。准确快速地检测场景文本成为科研领域的热门研究。自然场景中的文本图像背景较为复杂,处理起来就不如文档类图片简便,同时,对于模糊图片和排列多样性文本检测效果较差。为了提高模糊图片和图片中文本尺度变化较大文本的检测效果,本文针对自然场景下复杂背景文本算法进行研究,基于深度学习的方法对自然场景下的模糊图片和尺度变化较大的文本算法进行研究,主要研究内容分为以下三个部分:
(1)为提高复杂场景文本的检测效果,本文研究一种改进的字符区域感知文本检测算法(CRAFT)。提出在CRAFT网络的不同卷积层引入通道注意力模块和空间注意力模块,增强网络对文本区域的敏感性,提高特征提取效果。实验表明此算法克服了自然场景文本检测算法中对文本不清晰和文本尺度敏感的问题,减少了误检和漏检,提高了复杂场景文本检测的召回率和准确率。
(2)针对文本与背景相互干扰、密集小尺度文字等场景图像的文本提取效果较差,为提高这些场景文本的检出率引入挤压和激励模块(SENet),在通道上对重要特征进行提升,对用处不大的特征进行抑制,通过实验对比,改进后的模型的检测效率和准确率均得到了提升。
(3)针对小的文本实例可能漏检测而大的文本实例可能会部分检测或断裂等多尺度的问题,保留原先的通道注意力和空间注意力特征提取结构,研究将串联式的特征提取结构改为并行处理结构,并在此基础上增加了两个3×3的空洞卷积用来增加每层的感受野,以有效利用全局信息,避免了网络在提取特征的过程中丢失低层特征。实验结果证明改进算法可以提高尺度变化较大文本的召回率与准确率。
其他文献
随着智能手机、平板电脑等移动设备以及移动互联网的迅速发展,人们从移动设备中获取的信息逐渐增多。屏幕作为人机交互的主要媒介也随着这股浪潮迅速发展。AMOLED(ActiveMatrixOrganicLightEmittingDiode,有源矩阵有机发光二极管)屏幕相比于LCD(LiquidCrystalDisplay,液晶显示)屏幕具有自发光、功耗低、可视角度广等优点,逐渐成为多数移动设备选择的显示
反射面天线以其结构简单且稳定、功率容量大、性能优良等众多优点,成为卫星通信使用最多的天线种类之一。从最初简单的正馈单反射面天线,逐渐发展为多反射面天线、偏置反射面天线和赋形反射面天线等,宽带化、小型化和一体化是反射面天线一直以来最主要的发展趋势。反射面天线的整体性能很大程度上取决于其关键组成部分——馈源的性能。本文将反射面天线的馈源系统作为研究对象,主要工作包括以下几个部分: 1、反射面天线的发
单脉冲天线在工作时通过一个回波脉冲可以获得目标的位置信息,它的性能在一定程度上决定着雷达系统的追踪精度。近年来随着单脉冲天线在通信领域的发展,在一些场景下除了定位的准确性,还需要满足高速的信息传输速率,提高抗干扰性能,并降低其剖面高度。 本文设计了两款宽带低剖面单脉冲阵列天线,一个是等功分单脉冲阵列天线,另一个是在E面和H面均采用切比雪夫综合法所设计的低副瓣单脉冲阵列天线,并将人工磁导体应用于阵
激光脉冲整形技术是高功率、高重复率、可调谐TEA CO激光器研究和利用TEA CO激光研制差分吸收雷达、高次谐波发生获得3~5um中红外激光研究中必不可少的重要技术.等离子体开关是目前应用较广的一种简单可行的激光脉冲整形技术.通常情况下,TEA CO激光的脉冲输出波形是由增益开关动作产生的主脉冲以及接续它的很长的拖尾组成,这段占脉冲大部分能量的拖尾,不仅导致差分吸收雷达的距离分辨率降低,而且在倍频
该文回顾了国内外S激光器发展历史,分析和总结了前人的研究结果.在此基础上,开展了小型化放电型S激光器的研究.首先从理论上进行了宏观量的计算.讨论了实现粒子数反转的条件.详细讨论了Blumlein脉冲放电电路在研究人员研制的放电型S激光器中的应用.分别使用HY-3202氢闸流管和多通道火花隙,充气火花隙作为电路的触发快速转换开关,研究了它们的导通特性.通过比较,充气火花隙性能最稳定,开关速度最快,以
以la掺杂Pb(Zr,Sn,Ti)O反铁电相变陶瓷为研究对象,从结构、性能与应用的角度出发,深入系统地研究了铁电-相界附近,组份、温度、电场、压力变化对相结构和相变 性能的影响,揭示了场诱相变临界参数变化规律及相互关系.将温度诱导的Fe-AFE相变与电场诱导的AFE-FE相变和压力诱导的FE-AFE相变联系起来,详细研究了它们之间的内在机制.对场诱相变所产生的各种宏观效应-电致应就、压致相变电茶释
在这个科学技术不断发展和进步的时代,人们已经不满足于现有的通信速率和通信质量。满足上述要求的多输入多输出(multiple-input multiple-output,MIMO)技术得到了快速发展,其通过在收发端分别配置多根天线来对信息进行发送和接收,使得整个通信系统的传输速率大大增加。但在MIMO系统中,多天线收发会使系统性能受信道间干扰(inter-channel interference,I
滚动轴承是旋转机械设备中关键零部件之一,在不同工业领域中应用广泛。但在实际工作中轴承工况不断变化导致大量有标签数据获取困难,同时传统寿命预测方法存在健康指标难以构建及寿命预测误差大的不足。因此,能够准确预测滚动轴承的剩余使用寿命对工业生产具有重大意义。本文针对不同工况滚动轴承剩余使用寿命预测提出一种方法,该方法分为状态识别与寿命预测两部分。状态识别方面:提出基于深度模型迁移的滚动轴承状态识别方法。
图像是人们从客观世界获取信息的重要来源。然而,受环境以及成像设备的影响,获取的图像经常存在遮挡、扭曲、光照不均、边缘模糊等问题,导致图像中有效信息不能充分利用。这些低质量图像会给后续图像的处理,譬如图像中文本的定位与识别,带来很大的困难。目前基于深度学习算法的文本定位与识别算法在处理高质量图像时较传统的文档文本定位与识别技术有显著优势,但是在处理低质量的图像时,定位与识别效果仍然不理想。本文针对提
核磁共振成像(Magnetic Resonance Imaging,MRI)过程中,由于受自身成像机制的影响,以及遵循奈奎斯特采样定理将耗费大量的采集时间,长时间的扫描操作容易引起患者感到不适,并且可能会引入运动伪影。近年来,基于生成对抗网络的压缩感知(Compressed sensing,CS)核磁共振重建算法在重建时间上有了较大的提升,但是由于原始的生成对抗网络存在训练稳定性差、困难和模式崩溃