论文部分内容阅读
近年来,深度学习领域涌现出大量优秀的网络模型,在图像识别、物体追踪、医疗影像、自动驾驶、生物信息识别、数据生成等场景中取得了较大成功。有的模型在精度上成就很高,如CapsuleNet[1][2]、DenseNet[3]等,有的模型更注重运算速度,如MobileNet[4]、SqueezeNet[5]等。现在大多数的研究工作都着眼于新模型的设计,对已有模型的通用改进算法的研究,相比而言少了很多。所以在相同任务下,如何对已有模型进行改进,使精度和速度得以兼顾就成了本文的主要研究内容。本文尝试从三个方面着手:从函数拟合角度解释网络结构改进的必要性、从微分特征解释和改进卷积神经网络,以及从流形与镶嵌的角度理解并改进自编码器网络。第一部分,为了方便解释和运用,先利用张量、向量值函数等概念对深度学习作数学上的定义,把深度学习结构改进问题的研究转化成数学问题的研究,将全连接网络与卷积网络统一于一套框架下,说明二者的异同,介绍深度学习训练的意义,再利用拟合理论来解释深度学习的传播与训练过程,说明对网络结构的改进是有必要的。第二部分,从微分角度说明特征是什么,如何向前传播,解释卷积网络取得成功的原因,并且指出对卷积核进行改进的必要性;再利用截断奇异值分解来计算截断秩,以此代表当前层的本质特征数,观察实验取不同个数卷积核时对本质特征数的影响以及随之的泛化精度与速度变化,从而提出基于截断秩的一种卷积网络结构的改进算法,通过迭代计算进行网络改进,直至收敛。之后,本文选择图像分类任务中表现出色的resnet-34网络进行改进实验,试图找寻卷积核个数与网络性能之间的关系,并重新设计卷积核个数,使网络泛化能力达到最佳。第三部分,对于全连接网络,我们选取一种代表模型自编码器来进行改进,首先利用流形在背景空间中的镶嵌与映射来解释深度学习的工作原理,给出网络编码能力上限以及数据的编码复杂度,再提出一种量化表示的背景空间的空间利用率,利用截断秩监控流形所在背景空间的利用率,进而对自编码器进行结构上的调整改进的算法。最后通过实验验证算法的合理性。