论文部分内容阅读
随着计算机技术的迅速发展,图像、声音等多媒体数据已经成为信息处理领域主要的信息媒体形式。特别是视频数据,由于能记录、再现空间和时间上的各种信息,使得人们能更加方便地获得更多的细节内容,因此在各个领域都得到越来越广泛的应用。随着数字视频数据量的急剧增加,带来了对视频进行快速浏览和检索以及存储的困难,数字视频摘要技术就是为解决这一问题而产生的。
视频摘要是一种从文本摘要引申出来的技术,是为了方便用户的浏览,从原视频中提取或者生成的一段视频序列,该序列保留了原始视频中的主要信息但省略了大量的细节或者用户不感兴趣的信息,能够在一定程度上反映原视频的内容,但是在长度上要比原视频短得多。好的视频摘要技术一方面能够很好的反映其代表的视频内容,又能因为其信息量的高度集中而节省用户浏览整个视频的时间,因此视频摘要技术有着重要的意义。本文在分析现有视频摘要技术的基础上,优化并实现了一种新的针对监控视频的视频摘要技术:视频大纲,并在此基础上提出了一种基于认知心理学的视频大纲方法,具体取得了如下的成果:
(1)优化和实现了原始的视频大纲算法。本文首先分析和对比了现有的视频摘要方法,包括传统的视频摘要和三维视频摘要,着重介绍了三维视频摘要中的视频大纲算法,并对其进行了优化。对于较长的视频,原视频大纲算法生成的背景缺少连贯性,段与段之间会出现较明显的跳跃。本文提出了一种适合于长视频的背景生成算法,能迅速地得到较好的背景图像。另外原视频大纲算法的前背景融合算法较复杂,没有考虑视频大纲自身的特点,本文提出了一种简单的前背景融合算法,取得了较好的效果。
(2)提出了一种基于认知心理学的视频大纲算法。原始的视频大纲算法存在着不足:没有考虑人眼对运动物体的感知能力,生成的视频中运动物体密度过大,用户会感觉到画面很乱,浏览时会忽视很多运动物体。本文从认知心理学对于视觉理论的研究成果出发,充分考虑视觉工作记忆容量以及变化盲视的存在,提出了一个新的运动物体重排模型,在此基础上形成了一种基于认知心理学的视频大纲算法。通过对不同的视频进行实验,证明了该基于认知心理学的视频大纲算法能够很好地提取原视频的运动信息,大大缩短用户浏览视频的时间,并且能比原始视频大纲提供更好的用户体验。
(3)开发了一个基于认知心理学的视频大纲原型系统。该系统采用模块化的设计方法,整合了原始的视频大纲算法以及基于认知心理学的视频大纲算法。该系统能在保持原视频大部分运动信息的前提下,提取出原视频的视频大纲,有效地缩短视频的长度,减少用户浏览视频的时间。