论文部分内容阅读
随着计算机以及移动设备的快速崛起,文本图像以及照片承载着越来越多的重要信息。但是,文本图像的质量降低问题却越来越突出,比如图像模糊、图像污损、拍照抖动以及图像压缩等原因造成的图像质量降低,本文主要解决降质问题中的文本图像模糊问题。近年来由于深度学习的快速发展,特别地,随着计算机视觉的飞速发展,基于深度学习解决常见图像降质问题的方法也越来越多,但是在文本图像去模糊领域依然缺少一种可靠的解决方法以及相关的中英文数据集支撑。
本文基于生成对抗网络(Generative Adversarial Networks,GANs)和迁移学习(Transfer Learning)提出了弱监督(Weakly Supervised Learning)生成对抗循环网络和一种基于可替换基准网络(Backbone Networks)和生成对抗学习的去模糊网络。主要工作内容如下:
(1)本文提出了一种弱监督的文本图像去模糊方法研究。在基于对抗生成网络以及循环对抗神经网络提出了一种可靠的文本图像去模糊方法,通过迁移学习实现自然场景向文本图像场景的迁移学习,特别的通过本文提出的损失函数以及模型设计方法,可以实现稳定的弱监督模训练过程并在公开数据集上取得了较好的效果,与原生的CYCLEGAN网络相比,本文的损失函数以及特定的网络设计有较大的优势。同样的基于前面方法,本文实现的循环对抗神经网络是一种既可以完成去模糊操作的过程也可以通过清晰图像生成模糊图像的过程,通过相互监督的过程形成稳定的上升效果,并且生成的图片模糊效果不同于合成图片而与真实场景训练的去模糊文本图像相似。更重要的是,在通过使用本文提出的数据生成方式,可以在训练过程中实现较大的文本图像去模糊提升,增加实际的数据效果,即可以通过少量的真实场景图片合成大量的仿真数据。
(2)本文提出了一种基于对抗神经网络的文本图像去模糊方法。在基于对抗神经网络的基础上对神经网络的生成器以及损失函数进行改进,提出使用可替换的Backbone以及FPN网络结构并在现有数据集以及自己标注的数据集上表现良好,在公开数据集TextCNN上超过现有公开模型,并且采用轻量级的模型可以缩短网络的推理速度。
(3)高效的应用部署以及可视化的成果展示。本文在现有的高效的网络结构以及英伟达提出的推理引擎TensorRT上对模型进行高效的部署与运行,可以在短时间内对实验室内训练处理的计算机视觉类的神经网络模型进行结果可视化的展示,直观的展示模型输出的优秀效果。并且通过可替换的方式,可以在线对模型进行替换,极大的节省了实验室研究者的时间,以专注于模型的探索上。
本文基于生成对抗网络(Generative Adversarial Networks,GANs)和迁移学习(Transfer Learning)提出了弱监督(Weakly Supervised Learning)生成对抗循环网络和一种基于可替换基准网络(Backbone Networks)和生成对抗学习的去模糊网络。主要工作内容如下:
(1)本文提出了一种弱监督的文本图像去模糊方法研究。在基于对抗生成网络以及循环对抗神经网络提出了一种可靠的文本图像去模糊方法,通过迁移学习实现自然场景向文本图像场景的迁移学习,特别的通过本文提出的损失函数以及模型设计方法,可以实现稳定的弱监督模训练过程并在公开数据集上取得了较好的效果,与原生的CYCLEGAN网络相比,本文的损失函数以及特定的网络设计有较大的优势。同样的基于前面方法,本文实现的循环对抗神经网络是一种既可以完成去模糊操作的过程也可以通过清晰图像生成模糊图像的过程,通过相互监督的过程形成稳定的上升效果,并且生成的图片模糊效果不同于合成图片而与真实场景训练的去模糊文本图像相似。更重要的是,在通过使用本文提出的数据生成方式,可以在训练过程中实现较大的文本图像去模糊提升,增加实际的数据效果,即可以通过少量的真实场景图片合成大量的仿真数据。
(2)本文提出了一种基于对抗神经网络的文本图像去模糊方法。在基于对抗神经网络的基础上对神经网络的生成器以及损失函数进行改进,提出使用可替换的Backbone以及FPN网络结构并在现有数据集以及自己标注的数据集上表现良好,在公开数据集TextCNN上超过现有公开模型,并且采用轻量级的模型可以缩短网络的推理速度。
(3)高效的应用部署以及可视化的成果展示。本文在现有的高效的网络结构以及英伟达提出的推理引擎TensorRT上对模型进行高效的部署与运行,可以在短时间内对实验室内训练处理的计算机视觉类的神经网络模型进行结果可视化的展示,直观的展示模型输出的优秀效果。并且通过可替换的方式,可以在线对模型进行替换,极大的节省了实验室研究者的时间,以专注于模型的探索上。