论文部分内容阅读
足球比赛是大众普遍喜爱的一种体育运动,每年都有许多的足球比赛电视转播。一场足球比赛通常在90分钟以上,由于视频媒体的时序性和无结构性,使得对于这些大量的视频媒体的人工编辑、浏览以及检索是一件非常低效的工作。人们迫切希望有一种自动化分析工具来帮助他们加快对这些比赛视频媒体处理。早期的视频内容分析研究主要集中在图像和视觉信息的处理,然而,相比图像、视频的处理,音频处理的计算代价要小很多;而且,声音媒体在表达某些内容语义上有着明显的优势。因而,视频中的音频内容处理逐渐成为了近年来的研究热点。音频内容分析,就是利用音频处理技术,分析音频流中的内容语义,进而实现音频流的内容结构化,建立音频、视频流的内容索引结构。
本文以电视转播的足球比赛中音频内容为研究对象,对其内容分析技术展开了研究,提出了一套适合足球比赛音频内容的分类体系和相关处理技术,细化了足球比赛音频内容的分析粒度,同时还可以为听觉障碍人士提供音频效果的文本提示,提高他们观看足球比赛时的现场融入感。
本文的主要工作可以概括为以下几个部分:
1.提出了足球比赛音频内容分类体系和分析架构足球比赛音频是一种内容非常丰富的媒体,出于不同的应用目的,人们对足球比赛音频内容的分类也不尽相同。本文从辅助听觉障碍人士观看足球比赛以及足球比赛音频内容结构化分析的目的出发,提出了足球比赛音频内容的分类体系,并结合足球比赛音频内容特点,给出了足球比赛音频内容分析框架。
2.提出了基于自适应阈值的多尺度融合音频分割技术基于距离的音频分割技术从音频片段相似与否的思想出发将音频流分割成为一系列具有单一内容语义的音频片段。本文从距离阈值自适应的角度出发,设计了阈值自适应策略,并通过设计启发式规则对于多个尺度的音频分割结果进行合并,它能显著减少音频分割过程中的人工干预,并有效地提高了召回率。
3.研究了原始足球比赛音频内容的细粒度分类处理技术特征选择和分类器设计是分类问题的两个技术难点。特征选择有助于减少计算时间,提高分类精度,针对本文提出的足球比赛音频内容分类体系,基于决策树和前向搜索算法相结合的特征选择过程,根据分析得到了一个足球比赛音频分类特征集,并进行了分类实验。
基于上述研究工作,本文提出了增量式的足球比赛音频内容分析过程,设计了一个面向听觉障碍人士的足球比赛音频内容分析原型系统,该系统中实现了音频特征提取、音频分割、音频分类等功能模块。