论文部分内容阅读
建筑物外立面的语法解析与语义重建是计算机视觉中重要的问题之一。在地图重建、计算机辅助设计、电影与游戏的大规模城市生成中,这项技术有着重要的应用。高效而准确的建筑物解析系统可以节省大量的手工劳动力,实现高效的城市解析,进而通过语义重建系统,可以快速灵活地重建、生成大规模的三维城市模型。建筑物外立面的解析仍然是一个具有挑战性的难题,这是由建筑物外立面较为复杂的纹理结构、光照变化和遮挡等其他因素造成的。本文提出了端到端的建筑物外立面解析和建模系统:从二维图片的结构解析到根据语法结构的三维模型重建。
对称性是建筑物中普遍存在的规则,其中最常见的两类对称性是反射对称性与平移对称性。反射对称性是指某个物体经过对称轴的反射保持不变的性质,在建筑物中通常表现为单个物体的形状呈现反射对称性。平移对称性是指物体经过平移变换之后不变的性质,表现为同一个建筑物中的窗户等同类物体大小、形状通常是相同的。利用建筑物这种特有的强先验信息对于准确的外立面解析有着至关重要的作用。本文聚焦于如何将对称性融入神经网络的训练与预测当中,以取得最优的解析效果。
深度学习近年来在计算机视觉中的出色表现使得它成为了一种非常有潜力的建筑物外立面解析模型。然而,直接将标准的深度模型应用于建筑物的解析并不能产生最优的结果。这主要是由两方面的原因造成的:1)训练现有的深度学习语义分割网络模型,比如全卷积网络(Fully Convolutional Netowrks, FCN)[1],并不容易;2)建筑物是人类制造的物体,通常具有高度约束的形状规则,尤其是普遍存在的对称性规则,这些规则的先验信息在建筑物的解析当中起到至关重要的作用,如何把这些先验信息融合进入神经网络的训练也是一个公认的难题。本文为了解决这些问题,进行高效而准确的建筑物外立面解析,主要有以下贡献:
首先,本文提出了基于反射对称性的损失函数用来约束神经网络的训练。传统的语义分割神经网络是一个端到端的编码-解码模型。建筑物的外立面元素中存在大量的对称性物体,比如窗户、阳台、门通常都是长方形的物体。标准的神经网络模型并不会对对称性有过多的关注,因此本文提出了一个基于反射对称性的损失函数来约束网络的训练,使得神经网络对于单个物体形状的预测更为准确。本文的基本思路是对称的物体的水平和垂直中心点应该落在同一条直线上,如果这条线上的点互相偏离的越远,那么对称性越小。基于这个思路,本文提出了约束网络训练的损失函数,并在多个数据集上验证了这个方法的有效性。
其次,物体检测提供天然具有反射对称性的检测框。因此,本文希望将物体检测融入到对称性约束当中。本文提出了一种融合语义分割与物体检测的反射对称性损失函数,来进一步改进反射对称性损失函数。相比于前述的反射对称性约束,新的方法使用一个物体检测网络来标注对称性物体的检测框,将这个检测框的真实值与预测值直接的差距作为损失函数,用来约束语义分割网络的训练。本文在多个数据集上验证了这个方法,证明了相比于之前的方法它能够进一步提升准确率。
再次,本文提出了使用平移对称性从整体上去优化建筑物外立面的解析结果。同时,本文使用无锚定的检测方法以增加准确率与速度。之前的反射对称性是基于单个物体的形状进行的一种约束,而平移对称性则是跨物体之间的协调与优化,它的基本假设是同一个建筑物内的窗户、阳台等物体很可能是相同或者高度一致的。本文通过实验证明,在新型网络和平移对称性优化的加持之下,所提出的方法不仅在运行时间上大幅减少,同时在准确率和视觉效果上得到了显著提升。
最后,本文提出了一种基于解析语法进行程序化三维语义重建的方法。在完成了解析之后,算法可以根据参数化的语法规则获得高质量的三维模型,以应用于例如地图重建、游戏、电影渲染等多种场景。
本文的第三、四、五章介绍如何利用神经网络基于对称性进行高效的建筑物外立面解析,其中第三章和第四章介绍基于反射对称性的约束,第五章介绍基于平移对称性的优化。本文在第五章的末尾展示基于解析结果的三维重建。
对称性是建筑物中普遍存在的规则,其中最常见的两类对称性是反射对称性与平移对称性。反射对称性是指某个物体经过对称轴的反射保持不变的性质,在建筑物中通常表现为单个物体的形状呈现反射对称性。平移对称性是指物体经过平移变换之后不变的性质,表现为同一个建筑物中的窗户等同类物体大小、形状通常是相同的。利用建筑物这种特有的强先验信息对于准确的外立面解析有着至关重要的作用。本文聚焦于如何将对称性融入神经网络的训练与预测当中,以取得最优的解析效果。
深度学习近年来在计算机视觉中的出色表现使得它成为了一种非常有潜力的建筑物外立面解析模型。然而,直接将标准的深度模型应用于建筑物的解析并不能产生最优的结果。这主要是由两方面的原因造成的:1)训练现有的深度学习语义分割网络模型,比如全卷积网络(Fully Convolutional Netowrks, FCN)[1],并不容易;2)建筑物是人类制造的物体,通常具有高度约束的形状规则,尤其是普遍存在的对称性规则,这些规则的先验信息在建筑物的解析当中起到至关重要的作用,如何把这些先验信息融合进入神经网络的训练也是一个公认的难题。本文为了解决这些问题,进行高效而准确的建筑物外立面解析,主要有以下贡献:
首先,本文提出了基于反射对称性的损失函数用来约束神经网络的训练。传统的语义分割神经网络是一个端到端的编码-解码模型。建筑物的外立面元素中存在大量的对称性物体,比如窗户、阳台、门通常都是长方形的物体。标准的神经网络模型并不会对对称性有过多的关注,因此本文提出了一个基于反射对称性的损失函数来约束网络的训练,使得神经网络对于单个物体形状的预测更为准确。本文的基本思路是对称的物体的水平和垂直中心点应该落在同一条直线上,如果这条线上的点互相偏离的越远,那么对称性越小。基于这个思路,本文提出了约束网络训练的损失函数,并在多个数据集上验证了这个方法的有效性。
其次,物体检测提供天然具有反射对称性的检测框。因此,本文希望将物体检测融入到对称性约束当中。本文提出了一种融合语义分割与物体检测的反射对称性损失函数,来进一步改进反射对称性损失函数。相比于前述的反射对称性约束,新的方法使用一个物体检测网络来标注对称性物体的检测框,将这个检测框的真实值与预测值直接的差距作为损失函数,用来约束语义分割网络的训练。本文在多个数据集上验证了这个方法,证明了相比于之前的方法它能够进一步提升准确率。
再次,本文提出了使用平移对称性从整体上去优化建筑物外立面的解析结果。同时,本文使用无锚定的检测方法以增加准确率与速度。之前的反射对称性是基于单个物体的形状进行的一种约束,而平移对称性则是跨物体之间的协调与优化,它的基本假设是同一个建筑物内的窗户、阳台等物体很可能是相同或者高度一致的。本文通过实验证明,在新型网络和平移对称性优化的加持之下,所提出的方法不仅在运行时间上大幅减少,同时在准确率和视觉效果上得到了显著提升。
最后,本文提出了一种基于解析语法进行程序化三维语义重建的方法。在完成了解析之后,算法可以根据参数化的语法规则获得高质量的三维模型,以应用于例如地图重建、游戏、电影渲染等多种场景。
本文的第三、四、五章介绍如何利用神经网络基于对称性进行高效的建筑物外立面解析,其中第三章和第四章介绍基于反射对称性的约束,第五章介绍基于平移对称性的优化。本文在第五章的末尾展示基于解析结果的三维重建。