论文部分内容阅读
近年来,深度神经网络的学术研究取得了喜人的突破,而如何在实际应用中发挥人工智能的潜力仍然是一项艰巨的挑战。以计算机视觉为例,深度卷积神经网络的图像识别准确率虽然在Image Net数据集上表现卓越,但这些成果距实际的商用还有很大的距离。一方面由于图像识别算法的复杂性,另一方面则由于图像处理和计算带来的算法复杂度对计算设备的性能的超高要求。后者催生了高性能计算在异构平台上的广泛应用,如使用GPU加速使深度神经网络的图像训练时间控制在可接受的范围之内。与此同时,视频网站在版权、网络带宽、服务器等资源上的高昂成本需要新的广告推荐模式平衡用户体验和商业收入。基于以上立题背景,本文对已有的视频图像识别算法与技术进行研究分析,提出了一套用于解决垂直内容类的视频图像中的目标物品的定位和识别任务的基于异构平台的可行性方案。该方案的设计与实现包括主要三大部分的工作内容:(1)视频图像分割:对视频源进行预处理并获取帧图像,使用基于图表示的像素合并算法获取被分割区域后采取选择搜索策略获得可能存在目标对象的矩形框位置;(2)改进深度学习框架Caffe的跨平台性:使用异构编程语言Open CL实现原生的基于CUDA的GPU加速功能,从而克服已有的Caffe只能在NVIDIA平台上进行运算加速的局限性;(3)训练卷积神经网络执行图像识别:使用Image Net数据集对该模型进行训练得到能够识别目标对象的神经网络结构,将图像的识别结果与矩形框位置进行回溯映射定位视频中的目标物体位置。论文的实验部分对提出的方案的可行性和有效性进行了验证。为了实现识别的有效性实验的可视化,对图像分割结果包含区域矩形框和对应坐标位置通过图形编程对比神经网络的图像识别效果。实验还通过分析卷积神经网络不同神经层的输出结果理解卷积神经网络内部对图像特征的学习机制,印证了本文提出的解决方案的可行性。在总结与展望部分提出视频图像识别的研究方向与基于视频内容的广告推荐优化建议。