论文部分内容阅读
广告检测与识别技术是指利用计算机对广播电视节目中出现的广告进行自动检测并识别。由于音频广告检测与识别和相应的视频处理相比,效率更高,因此本论文将重点关注音频广告检测与识别技术研究。该研究具有重要的学术研究价值和广阔的商业应用前景。
音频广告检测与识别技术经过十几年的发展获得了一定的进步,但实际运用中的音频广告检测与识别技术还远未成熟,要开发出快速、鲁棒、实用的应用系统还需要解决大量的关键技术。本论文的研究目标是面向广播电视节目,以广告的检测与识别为应用背景,研究音频广告检测与识别技术中面临的若干技术问题。其核心是研究快速的音频广告检测与识别技术,包括音频特征的提取、音频匹配等,并取得了以下研究成果:
1、提出了一种面向快速检索的新颖的音频特征——基于能量包络单元的音频特征
同一广告在不同频道不同时段播出时,音频信号及其频谱、倒谱等特征虽因噪声等干扰有所差异,但音频的强弱变化趋势却保持不变。针对这一特点,本文在短时能量的基础上提出了一种新的较为鲁棒的、而且有利于提高广告识别速度的音频特征。其获取方法是:首先提取音频的短时能量,然后将其平滑,切分出一个一个的能量包络单元,并计算其位置和相应的切分概率。然后以能量包络单元的位置和切分概率组成的数对序列表征该段音频,这种数对序列即为基于能量包络单元的音频特征。该特征提取简单、提取速度快,可用于快速音频匹配,是本文其它部分的基础。
2、提出了一种快速的音频匹配方法
为提高广告检测与识别的速度,本文提出了一种基于能量包络单元的音频匹配方法。音频匹配主要包括两个方面,音频匹配策略和相似性度量。本文在音频匹配策略方面,以能量包络单元的长度取代传统的固定窗长,使得广告检测与识别不仅速度快而且边界准确。在相似性度量方面,本文采用了基于能量包络单元的相似性度量方法,较之传统的距离度量方法、动态规划方法等,本方法可以使广告检测与识别达到23%倍实时性能。此外,本文还提出了一种基于MFCC特征和KL2距离的后处理技术,可以很好的提高音频广告检测与识别的准确率。
3、搭建了一个基于广告库的音频广告检测与识别原型系统
这部分将本文所做的研究实用化,搭建了一个基于广告库的音频广告检测与识别原型系统。用户可以利用此系统对广播电视节目中的广告进行检测、识别、分析,也可以剪切掉广播电视节目中的广告生成无广告的干净的广播电视节目。