基于注意力增强网络的场景文字识别

来源 :现代计算机 | 被引量 : 2次 | 上传用户:tananhua251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文字识别的一个具有挑战性的方面是处理具有扭曲或不规则布局的文字,尤其是透视文字、模糊文字和曲线文字在自然场景中较为常见,且难以识别。提出一个注意力增强网络,将其用于场景文字识别。此网络由卷积神经网络和循环神经网络组成。注意力增强的序列识别网络可以直接根据输入的图像预测字符序列。整个模型可以进行端到端的训练,训练只需要图像和相应的文字真实标签。在各种公开数据集上进行广泛的实验,包括ICDAR 2003、ICDAR 2013和SVT等数据集,验证此网络具有优异的性能。
其他文献
图像描述是计算机视觉应用于视觉理解的一项基础任务,主要任务是将一幅图片翻译为一段描述性文字,其也是一个融合计算机视觉和自然语言处理的综合问题。近些年神经网络技术的发展和大数据的兴起为视觉和语言之间搭建一座桥梁,引发图像描述的研究热潮。对近些年应用于图像描述任务中的神经网络方法进行回顾与总结,并介绍图像描述任务常用的数据集。
针对基于样本块的经典算法Criminisi算法在实际计算中有置信项减小,数据项逐渐失效的问题,提出一种改进方案。即改进置信项,增添显著结构项;将已经修复好的像素块作为候选块与待修复块匹配;采用非局部纹理信息匹配候选块与待修复块。实验表明,相较于改进前的算法,提出的算法效果有较大的提升。
目的通过分析日常血压监测数据,探讨日常血压测量和日常行为干预对个体高血压控制的效果。方法利用腕式电子血压计,采用日常血压测量的监测方式,采集2014年3月30日至2016年5
通过对国内典型麦饭石矿与江西省麦饭石矿的成矿地质条件、岩石化学及岩石微量元素等特征的类比和分析,提出了江西省麦饭石矿的找矿方向.
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
西安作为中国农耕文明时期建都历史最长的城市,城市发展的得失经验值得当代城市发展借鉴。环境资源是农耕文明时期城市发展最为重要物质基础。通过梳理西安新中国成立以前各
全局光照在增强虚拟场景真实感上具有极为突出的贡献,为了满足实时性的要求,近年来研究学者们提出许多有效的近似方法。为了解决部分研究算法在生成虚拟点光源及需要大量预处理的问题,通过在物体空间对场景三角形网格进行处理,随机裁减掉大部分的三角形网格,在剩余网格上生成虚拟点光源。并结合间接光照计算公式,形成计算最终间接光照的无偏公式。最后经实验验证方法的间接光照效果的可行性和实时性。
目的观察分析环磷腺苷葡胺治疗慢性心力衰竭的临床效果。方法我院2015年-2016年收治的慢性心力衰竭的患者每年筛选44例为本次研究对象,2015年的患者为对照组,2016年筛选的44
本文简要概述制定电气电子设备环境标准背景、目的及其意义,并对标准化后三个欧盟新指令和关系进行解读,总结国际电气电子设备环境标准化对我国企业影响,并提出几点应对策略。