论文部分内容阅读
场景文字识别的一个具有挑战性的方面是处理具有扭曲或不规则布局的文字,尤其是透视文字、模糊文字和曲线文字在自然场景中较为常见,且难以识别。提出一个注意力增强网络,将其用于场景文字识别。此网络由卷积神经网络和循环神经网络组成。注意力增强的序列识别网络可以直接根据输入的图像预测字符序列。整个模型可以进行端到端的训练,训练只需要图像和相应的文字真实标签。在各种公开数据集上进行广泛的实验,包括ICDAR 2003、ICDAR 2013和SVT等数据集,验证此网络具有优异的性能。