基于广告库的音频广告检测与识别技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:sometimestry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广告检测与识别技术是指利用计算机对广播电视节目中出现的广告进行自动检测并识别。由于音频广告检测与识别和相应的视频处理相比,效率更高,因此本论文将重点关注音频广告检测与识别技术研究。该研究具有重要的学术研究价值和广阔的商业应用前景。   音频广告检测与识别技术经过十几年的发展获得了一定的进步,但实际运用中的音频广告检测与识别技术还远未成熟,要开发出快速、鲁棒、实用的应用系统还需要解决大量的关键技术。本论文的研究目标是面向广播电视节目,以广告的检测与识别为应用背景,研究音频广告检测与识别技术中面临的若干技术问题。其核心是研究快速的音频广告检测与识别技术,包括音频特征的提取、音频匹配等,并取得了以下研究成果:   1、提出了一种面向快速检索的新颖的音频特征——基于能量包络单元的音频特征   同一广告在不同频道不同时段播出时,音频信号及其频谱、倒谱等特征虽因噪声等干扰有所差异,但音频的强弱变化趋势却保持不变。针对这一特点,本文在短时能量的基础上提出了一种新的较为鲁棒的、而且有利于提高广告识别速度的音频特征。其获取方法是:首先提取音频的短时能量,然后将其平滑,切分出一个一个的能量包络单元,并计算其位置和相应的切分概率。然后以能量包络单元的位置和切分概率组成的数对序列表征该段音频,这种数对序列即为基于能量包络单元的音频特征。该特征提取简单、提取速度快,可用于快速音频匹配,是本文其它部分的基础。   2、提出了一种快速的音频匹配方法   为提高广告检测与识别的速度,本文提出了一种基于能量包络单元的音频匹配方法。音频匹配主要包括两个方面,音频匹配策略和相似性度量。本文在音频匹配策略方面,以能量包络单元的长度取代传统的固定窗长,使得广告检测与识别不仅速度快而且边界准确。在相似性度量方面,本文采用了基于能量包络单元的相似性度量方法,较之传统的距离度量方法、动态规划方法等,本方法可以使广告检测与识别达到23%倍实时性能。此外,本文还提出了一种基于MFCC特征和KL2距离的后处理技术,可以很好的提高音频广告检测与识别的准确率。   3、搭建了一个基于广告库的音频广告检测与识别原型系统   这部分将本文所做的研究实用化,搭建了一个基于广告库的音频广告检测与识别原型系统。用户可以利用此系统对广播电视节目中的广告进行检测、识别、分析,也可以剪切掉广播电视节目中的广告生成无广告的干净的广播电视节目。
其他文献
随着各企事业单位信息化工作的开展,这些单位都建有若干应用系统。由于时间跨度较大和缺乏统一建设规划,这些应用系统的开发及运行平台、数据结构等很可能是异构的,加上这些
随着网络购物已经被广大消费者所接受并广泛应用,电子商务也以新的面孔被更多地了解与应用。在因特网开放的网络环境下,B2B电子商务网站是一种基于浏览器/服务器的新型电子商
学位
无线自组织网络是由无线移动节点自组织而成的无固定基础设施的多跳无线网络。基于信任评估的信任管理系统可以通过对特定节点的监控识别恶意节点,尤其是内部攻击节点,将之驱出
学位
基于句法的统计机器翻译近年来逐渐成为统计机器翻译的研究热点.基于句法的模型有助于解决基于短语的模型所面临的主要问题,如短语层次上的重排序,泛化能力弱,以及要求短语连
定位技术是无线传感器网络的关键技术之一。基于射频(Radio Frequency, RF)信号的定位技术由于其仅利用节点自身的RF信号就能实现定位、无需额外硬件支持等特点而被广泛使用
随着 Web应用软件用户数量的急剧增长和业务规模的不断扩大,如何保证 Web应用软件的稳定性与可靠性成为人们关注的重要问题。Web性能测试是保证Web应用软件稳定性与可靠性的
信息技术的发展,使企业的全球化竞争日趋激烈,销售系统设计的目的是帮助企业进行更好的客户产品的销售管理,使企业建立弹性化和灵活性的业务流程,提高工作效率,减少人工操作中
本文首先概要地介绍了汽车电子领域的焦点——CAN/LIN总线技术,并结合基于重型卡车的CAN/LIN总线整车仪表控制系统的研发工作,从其机理、总体结构的研究到软硬件的开发设计、
随着Lntcrnct技术的迅猛发展,对人机之间,尤其是机器与机器之间的交互需求越来越多。具有松耦合性,自我描述以及XML文档驱动等特征的Web服务技术作为一种新型的分布式计算模
学位
网格是继Internet后的新一代信息基础设施,是新一代软件基础支撑平台。网格环境开放、动态、多变,其用户多样,用户需求多样且不断变化。面对网格新形势,研究如何构造可随网格环境