基于内容的音频分类与检索技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:Norazhongli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机性能的不断提高,Internet带宽的不断增长,多媒体信息压缩技术和视频/音频流技术的不断发展,人们可以获得的媒体信息越来越多,如何从海量的多媒体信息中快速检索出所需的信息已经变得非常必要。但是目前的检索方式主要是依靠文本或者数值信息检索,这些方式已经不能满足多媒体检索的应用需求。本文根据实际需求,在深入分析音频检索系统的特点以及面临的主要问题的基础上,针对音频流的分割、音频的分类、音频的快速检索以及哼唱检索等问题做了深入的探讨和研究,进行了以下几个方面的研究:   (一)首先在连续音频流分割方面,本文提出了一种基于背景声音的音频流分割算法。该算法的优点在于:其一,分割点的检测是基于背景声音,从而避免了由于音频内容的微小变化而导致的大量的错误分割。其二,采用直方图判别准则,分割速度更快。   在基于单一场景的音频片段分类方面,本文提出了一个基于改进高斯模型的层次化的分类算法。该算法的优点在于摒弃了传统算法中各维特征具有相同权重的弊端,通过对各维特征的区分能力进行统计,使得各维特征的权重能够进行自适应调整。   (二)对音频快速搜索技术进行了深入的研究,设计并实现了基于子带能量的音频快速搜索算法。该算法采用直方图建模方法对目标音频建立模板,并且采用临界带划分策略,提取多子带能量比率作为基本特征。针对音频中的不稳定成分,采用低通滤波器对其进行平滑处理。实验证明该算法对于广播电视级的敏感音频的监控具有实际的应用价值。   (三)针对复杂环境下的音频快速检索的鲁棒性问题,提出了基于主频组件的音频搜索方法。该方法提出了一种新的音频畸变消除技术,利用该技术可以大大降低音频中的噪声、扭曲等畸变,提高了系统的鲁棒性。此外,为了保证检索速度,提出了基于目标音频疑似位置预估的二次搜索策略。   (四)对音频检索的研究难点和热点——基于哼唱的音乐检索技术进行了研究,并对音乐主旋律的表示和提取进行详细的论述。对于复调音乐的主旋律提取,本算法采用了基于频谱自相关的音调轮廓提取算法。最后利用具有匹配路径约束的DTW匹配方法对主旋律进行了相似度计算。实验结果证明该算法在哼唱检索系统中取得了一定的检索效果。
其他文献
双容水箱液位控制系统实验装置是模拟工业生产过程中对液位、流量参数进行测量、控制、观察其变化特性,研究过程控制规律的科研产品,具有过程控制中动态过程的一般特点。 本
随着软件产业的蓬勃发展,人们越来越深刻地认识到软件度量的重要性。规模是软件的一个重要属性,是成本估计和生产率分析的重要参数,同时它也是软件项目管理所必须考虑的一个重要
随着计算机网络的普及和发展,网络入侵呈现出综合化发展趋势,入侵者在实施入侵时往往采用多种技术手段、进行分布式入侵,从而使得现有基于规则的滥用检测系统检测效率较低,相应误
由于酸碱中和反应中pH值呈现严重的非线性及大时滞,给pH值控制带来极大的困难,pH值一直被公认为最难控制的变量之一。 本论文对实验室酸碱中和反应装置的pH值和液位进行MIMO
目前基于静息状态(resting-state)功能磁共振成像(functional MRI,fMRI)的研究已经越来越多。这些研究绝大多数考察基于血氧水平(blood-oxygen level dependent,BOLD)的fMRI信
本论文是以实验室冰箱为研究对象,首先建立实验室冰箱的温度测量装置,采用C语言进行串口通讯编程并将采集的数据在计算机中进行画图分析处理;其次,采用机理建模法对冰箱的压缩机
随着科技的发展和社会的进步,板形控制越来越受到普遍的重视,实现板形控制的一个重要环节是板形的在线检测.为了提高控制系统的精度,降低企业生产成本,提高板带的质量,设计高
通过建立柴油机行业的敏捷制造模型,建立了敏捷制造的时间与费用关系,采用邻接矩阵理论解决了动态工艺路线问题。提出了基于AM理论的企业信息集成方法,解决了跨企业的信息集成技
学位
说话人检测是基于生物特征识别技术、从音频信息中搜索和定位目标人出现的次数和时间位置的一种模式识别技术,是语音识别应用领域的一大研究课题。本文基于电视广播音频检索和