论文部分内容阅读
在人机交互、自动驾驶等领域,人眼视线估计发挥着巨大的作用。目前人眼视线估计方法的效果深受其训练数据的质量所影响,视线估计的训练数据主要包含两个类型:人眼真实图像和人眼合成图像。真实图像更符合实际场景的要求,但图像中的干扰因素较多、需人工标注;合成图像受外界干扰因素少、可以自动标注,但缺少真实性、数据分布没有真实图像丰富。因而,使用这两种人眼图像训练出来的视线估计模型,在实际场景测试时效果都很不理想。针对合成图像训练出的视线估计模型泛化性差,真实图像采集和标注成本大、干扰因素多的问题,本文创新性地将风格转换的思想引入视线估计中,提出了一种基于风格转换的人眼图像合成方法,重点对人眼真实图像进行改善,并结合现有人眼合成图像分布均匀、易于学习的优势。具体地,将真实图像的标注信息作为内容信息,将合成图像的分布作为风格信息,通过使用本文方法生成的图像训练出更为鲁棒性的视线估计模型进而提高视线估计的精度。该方法包含三部分,语义分割网络、特征提取网络和损失网络。针对传统风格转换方法对瞳孔和虹膜这些局部信息保留不充分的问题,在本文方法中设计了一个语义分割网络来获得局部瞳孔和虹膜区域信息。通过本文改进的特征提取网络分别学习人眼全局和局部特征。在损失网络中本文提出了一种新的损失函数来计算风格损失和内容损失,以减少合成图像和真实图像之间的分布差距,得到最终的输出图像。输出的人眼图像在保留原始真实图像的瞳孔和虹膜这些重要标注信息的同时,减轻了光照等因素的干扰,还尽可能地学习到了合成图像的颜色、纹理等分布。最后,为了更充分、全面地证明本文方法的有效性,采用主观定性和客观定量的评价标准,分别就风格转换任务和视线估计任务进行了对比实验。在风格转换任务中,与基准方法相比,本文方法可以更好地保留参考风格图像的颜色、纹理信息,同时满足实时性的要求。在视线估计任务中,为了验证本文方法能够有效提高视线估计的精度,将本文生成的改善后的真实图像与原始真实图像在五种视线估计基准方法中进行对比实验,实验结果证明在多个公开数据集上本文方法均取得了最优的视线估计精度。