论文部分内容阅读
图像语义信息是通过使用定义的标签对图像中的每个像素进行分类得到的。它在自动驾驶,医学分析和场景理解中普遍存在。最近,深度学习在计算机视觉任务中取得了出色的表现。但是,在2D情况下,语义分割网络由于其固定的几何结构而不能有效处理多尺度的物体。在3D情况下,基于点云的目标检测器主要依赖于点簇的聚集情况,而忽略了物体的语义信息。在这项工作中,为了应对2D图像处理中的挑战,本文致力于在神经网络中设计更灵活的部件。在3D LIDAR处理中,本文利用语义分割中的2D图像语义信息来增强3D目标检测的性能。首先,为了提高语义分割模型的几何变换能力,本文提出基于语义分割的动态注意力网络(Dynamic Attention Network for Semantic Segmentation,DAN)。该方法使用可变形卷积来设计功能更强大的特征聚集部分,从而使网络能够准确的获取目标物体的相关内容。此外,本文提出的方法组织了一个全密集连接网络进行语义分割,使编码器-解码器同层的梯度能够有序的传导到网络各个位置。这两个设计有助于模型获得针对输入的动态注意力机制并大大提高了整体模型的几何变换能力。此外,该方法在两个语义分割基准上获得优越的性能并超越现有的深度语义分割方法。其次,为了进一步通过设计基础卷积提升计算机视觉模型的几何变形能力,本文提出了自适应可变形网络(Adaptive Deformable Convolutional Network,A-DCN)。具体来讲,本文通过加入自适应扩张因子来重新构造现有的可变形卷积。该因子对偏移中的采样位置之间的相对距离进行建模,然后将该距离信息传递给通道注意力。这种方式使最初分离的空间和通道注意力能够相互交互。为了验证本文提出的方法的有效性,本文在各种获得最佳性能的计算机视觉任务的方法中,用自适应可变形卷积替换了网络中的常规卷积。实验表明,本文提出的自适应变形卷积可以进一步提高其原始性能。然后,为了利用发达的2D图像知识来弥补3D目标检测器中语义细节的不足,本文提出了基于语义视锥的稀疏嵌入式目标检测(Semantic Frustum Based Sparely Embedded Convolutional Detection,SFB-SECOND)。在本方法中,2D语义分割和目标检测方法被采用来进一步精确点云中相关物体的形状和位置。本文的方法首先检测所有潜在目标并将其划分为两个与置信度相关的区域。然后,将这种准确而有区别的对象信息被发送到3D点云检测器。本文的方法使用了基于3D视锥的置信度的损失函数,并显示出优于KITTI基准上现有技术的优势。