基于多模态融合的视频内容分析及其个性化定制

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:ylznaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频内容分析是当前多媒体领域的热点研究问题之一,是视频数据检索、浏览、和管理的关键技术。它能够对视频内容按照不同的语义概念标注关键字,从而为后续的数据管理、检索和浏览提供一种高效快捷的途径。传统的视频分析方法主要从视频单一模态出发,依靠从视频数据中提取的底层特征去描述视频的内容。但是由于“语义鸿沟”的存在,使得基于底层特征的视频内容分析和理解存在着很大的困难。尤其是对于体育、电影等内容丰富的特定领域视频,人们关注的重点往往不是一些简单而泛化的语义概念(例如进球,争吵等),而是一些具体的人物和事件描述(例如梅西的中场头球,Ross和Rach在客厅争论房租问题等)。在本文中,我们采用了跨模态分析的方法来解决上述问题。具体地,我们通过挖掘文本和视频的时序对应关系,将语义的文本描述准确地关联到相应的视频片段之上,从而实现关于视频内容的详细语义标注。在此基础之上,我们针对用户的个性化需求提出了两个新的应用:体育视频的个性化定制和电视场景的个性化合成。前者能够让观众根据他们感兴趣的球员和事件来检索和摘要视频内容,后者能够让普通人通过创作故事剧本来自动产生影视剧视频。   本文的主要工作和贡献如下:   ·针对体育视频的分析,我们提出了一种不依赖时间戳信息的视频文本匹配方法来标注视频内容。我们首先利用贝叶斯网络和关键词匹配的方法,将视频内容和文本描述转化成语义标签序列,其中的每个标签对应着比赛中的一次进攻(粗匹配)或者独立事件(细匹配),而标签的编码则反映了对应片段中所包含的语义事件组合。接下来,我们利用序列匹配的方法将视频和文本标签序列进行匹配,从而将相应的文本描述关联到对应的视频片段之上,最终得到语义的视频标注;   ·利用体育视频分析的结果,我们设计并实现了一个基于移动设备的体育视频个性化定制系统。考虑到用户针对不同球员和事件的个性化偏好,比赛事件对与整场比赛的影响以及用户观看环境的各种限制,我们提出了一个约束优化的模型来建模环境受限条件下视频的个性化定制问题。另外,我们还提出了一个基于社会网络的用户偏好学习方法,它能够在不增加用户额外交互负担的前提下尽可能全面准确地学习用户潜在的观看偏好;   ·针对电视剧视频的分析,我们提出了一种产生式的图模型来建模电视剧的拍摄过称。通过模型参数的学习,我们可以无监督地计算出人名-人脸的对应关系;同时,通过隐状态序列的推理,我们可以确定出全局最优的视频场景结构。另外,我们还找到了快速解法来加速模型的参数学习和隐状态推理过称;   ·利用电视剧视频分析的结果,我们提出了一个电视场景个性化合成的应用。整套方案从功能上可以分为离线标注与在线合成两个部分。前者使用之前的电视剧拍摄模型来自动关联视频内容与剧本描述,从而得到大量丰富的有语义标注的视频素材;后者根据用户提交的剧本故事来选择和组织合适的视频片段以构成最终的影视作品。我们的方法综合地考虑了语义内容和视觉效果两方面的因素,能够准确生动地对用户剧本故事给予艺术化地视觉呈现。  
其他文献
随着互联网的快速普及和数字影像采集处理技术的发展,网络视频行业迅速崛起,并在人们的日常生活中起着越来越重要的作用。作为一种包含图像、声音、文字等多信息的综合性媒体
该文在分析图象处理、特征提取和神经网络理论的基础上,设计并实现了一种基于BP神经网络的指纹自动识别系统.对于自动处理指纹的摄入、识别等技术进行了深入的讨论,并通过实
利用光谱仪对农作物进行长势监测已经成为世界农业的发展方向。随着光学,电子技术的发展,光谱仪朝着微型化,低噪声,高分辨率,宽光谱范围等方向发展;另外,光谱仪与PC机之间的数据传输
基因芯片,又称DNA芯片或DNA微阵列,它们是DNA杂交探针技术与半导体工业技术相结合的结晶,并伴随着“人类基因组计划”而发展起来的一门新兴技术,具有高通量、大规模、平行性等特
本文在北京市自然科学基金项目“基于惯性和视觉传感器的移动机器人位姿估计(4082032)”的支持下,以中国科学院自动化研究所的智能轮式移动机器人AIM为实施平台,进行移动机器
随着社会进步和网络技术的不断发展,web应用系统在信息化建设中得到广泛应用。构建在J2EE平台上的各种框架与技术,促进了web应用系统开发的进一步发展,简化了软件开发过程。然而
近年来,随着经济的发展,现有的道路运输系统已不能满足当前社会发展的需要。各国政府和科研机构都将大量精力投入到(Intelligent Transportation System,ITS)的研究。其中汽
在我国人口老龄化的背景下,空巢老人和独居老人的数目不断增加,与此同时对于老年人的监护需求快速增长。实时确定老年人所在的位置才能为老年人提供优质服务,而无线传感器网
面向微纳级操作对象的控制系统,其操作过程中会呈现出诸多与宏观操作不同的现象和特点,这对系统的灵活性、可靠性和高效性提出了更高的要求。本文结合SEM视觉辅助、力觉反馈
随着社会经济的发展,私有车辆的迅速增加,城市正面临着越来越严重的拥堵与交通事故。为了能够舒缓交通压力、减少交通拥堵、降低事故发生率,准确的交通信息采集是其中的关键