基于MFCC特征聚类变换的歌曲中歌声的识别

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:cyalil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对直接采用MFCC作为歌曲中歌声识别的特征参数存在数据量大、且所包含的歌手歌唱特征较少的问题,提出一种基于MFCC特征聚类变换的歌曲中歌声的识别方法。通过对MFCC特征进行GMM聚类变换,以各个高斯分布的均值作为SVM分类器的特征参数,利用GMM数据描述能力强的特点,突出歌手的歌唱特征,降低特征参数的数据量。实验结果表明,该方法在歌曲中歌声识别上的平均识别率较标准GMM方法略有提高,且数据处理量减少了65.8%。
  关键词:歌曲中歌声的识别;MFCC;特征聚类变换;高斯混合模型
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)31-0170-02
  Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singer’s singing characteristics. Aim to this, an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMM’s great ability of data description, so as to highlight singer’s singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .
  Key words:singing voice detection;MFCC;feature clustering and transform
  1 引言
  歌曲中歌声识别的任务是,在歌曲中定位歌手开始歌唱以及持续的片段[1]。歌曲从结构上通常可以划分为歌手演唱部分和纯伴奏部分,其中歌手演唱部分通常是人声与伴奏音乐的叠加,而纯伴奏部分则不含人声、纯粹由伴奏乐器的声音构成。目前在歌曲中歌声识别方法中,常用的声学特征参数有:线性预测系数(Linear Predict Coefficients,LPC)[1]、感知线性预测系数(Perpetual Linear Predict Coefficients,PLPC)[2]、梅尔频率倒谱系数(Mel - Frequency Cepstral Coefficients,MFCC)[3][4]、对数频率功率系数(Log Frequency Power Coefficients,LFPC)[5]等。而目前在歌曲中歌聲识别方法中,常用的分类器包括:隐马尔科夫模型(HMM)[1]、高斯混合模型(GMM)[3][4]、支持向量机(SVM)[6]、人工神经网络(ANN)[7]等。文献[8]的研究结果表明,在使用同一分类器对各种声学特征进行歌曲中的歌声识别时,MFCC的识别效果最好。同时,研究表明,GMM具有较强的数据描述能力,但分类能力较弱,而SVM的数据描述能力较弱,但分类效果更好[9-10]。因此,本文尝试采用MFCC作为声学特征,提出使用GMM和SVM相结合的方法来对歌曲中的歌唱部分和纯伴奏部分进行区分。
  MFCC特征参数不仅可用于话者识别,还用于语音识别、语种识别等,是因为MFCC特征参数中不仅包含说话人信息,还包含丰富的语义信息、语种信息等多种信息。因此,直接采用MFCC作为歌曲中歌声识别的特征参数,将会导致特征参数中含有大量冗余信息、存在数据量大的问题。同时,特征参数中包含歌手的演唱特征较少,需要收集大量歌曲样本,即包含各种歌手演唱的歌曲样本,才能表征出歌手的演唱特征。同时,训练歌唱GMM模型和伴奏GMM模型都需要较多的训练数据。以上这些因素都会导致数据处理量很大。
  针对上述问题,本文提出一种对MFCC特征进行聚类变换的歌曲中的歌声识别方法。通过对MFCC特征进行GMM聚类变换,得到各个单高斯分布的均值作为SVM分类器的特征参数。既利用了GMM数据描述能力强的特点,突出歌手歌唱的个性特征,降低特征参数的数据量;同时也利用了SVM分类能力强的优势。
  2 对MFCC特征的聚类变换
  2.1 MFCC特征的提取
  使用经过人工标注的歌曲作为训练数据,经过预加重,加汉明窗分帧处理,本文采用的帧长为20ms。对每一帧提取13维MFCC及其一阶和二阶差分作为特征参数,共计39维。
  2.2 基于GMM聚类的特征变换
  根据高斯混合模型(Gaussian Mixture Model, GMM)的定义可知,高斯混合模型是用M个单高斯分布的概率密度函数的线性加权组合来对一个特征数据集的统计分布进行描述的。其中,每个单高斯分布的概率密度函数可用均值、协方差及权重来表述(m=1,2,...,M)。因此,可以把GMM中的每个单高斯分布看成一个类别,那么均值描述了该类数据的平均大小,反映了不同特征向量在在特征空间的相对位置,协方差描述了数据分布的密集程度,权重描述了属于该类的数据的多少。所以,对一个特征数据集进行GMM的训练过程,也可以看成是对该特征数据集进行GMM聚类的过程。因此,也可使用GMM聚类对MFCC特征进行特征变换。本文直接采用各个单高斯类的均值作为GMM聚类后的变换特征。本文采用的高斯混合数m为256。   3基于SVM的歌曲歌唱部分检测
  3.1 SVM的训练
  根据人工标注将提取出的MFCC特征参数分为歌唱MFCC特征和纯伴奏MFCC特征两类,分别融合在一起得到歌唱MFCC特征数据集和纯伴奏MFCC特征数据集。首先,对歌唱MFCC特征数据集进行GMM聚类,将得到的变换特征向量序列记为{, , ...,},其中,s代表singing,即歌唱部分。并且,将该变换特征向量序列对应的类别全部标记为 1。然后,对纯伴奏MFCC特征数据集进行GMM聚类,将得到的变换特征向量序列记为{, , ...,},其中,i代表instrumental,即纯伴奏部分。并且,将该变换特征向量序列对应的类别全部标记为-1。最后,用这些数据对SVM进行训练,得到支持向量和最优分类超平面。本文采用的SVM核函数是径向基内核。
  3.2基于SVM的歌声/纯伴奏的识别
  对测试歌曲中的歌声片段进行识别时,首先对其分帧,假设共有T帧,每一帧提取MFCC特征向量,这样得到一个初始的MFCC特征向量序列{x1, x2, ..., xT}。对得到的MFCC特征向量序列{x1, x2, ..., xT}进行GMM聚类,将得到的变换特征向量序列记为{, , ...,}。利用前面训练好的SVM进行分类,设分类结果为{w1,w2,...,wM},其中wm={ 1, -1},m=1,2,...,M。以w1为例,如果w1= 1,则意味着所代表的类别中的所有初始MFCC对应的帧均识别为歌声帧;如果w1=-1,则意味着所代表的类别中的所有初始MFCC对应的帧均识别为纯伴奏帧。
  4 实验结果及分析
  实验中使用的音频数据库由60段英文流行歌曲组成,每段长度为15秒。对这60段歌曲的歌声片段和纯伴奏片段分别进行了手工标注,并将标注结果保存在对应的*.lab文件中。具体来说,将歌曲的歌声片段标注为singing,而将纯伴奏片段标注为non-singing。测试方法为留一交叉检验。采用基于帧的识别率来评价识别效果,计算公式如下:
  表1给出了使用MFCC特征结合GMM模型和使用MFCC聚类变换特征结合SVM的识别结果。从表1中可以看到,使用MFCC聚类变换特征结合SVM进行识别,平均识别率略有提高。同时,平均处理数据量大大降低,仅为聚类变换之前的34.2%。
  5 结论
  本文采用对MFCC特征经过GMM聚类后的变换特征,即各个单高斯分布的均值,作为新的特征参数,并采用SVM作为分类器,进行歌曲中歌声的识别研究。相对初始的MFCC特征,变换特征利用GMM数据描述能力强的特点,突出了歌手歌唱的个性特征。且变换特征的数据量相对于初始MFCC特征的数据量减少了65.8%,有利于提升识别速度。同时,采用SVM作为分类器,利用了SVM分类能力强的优势,弥补了GMM区分能力较弱的不足,实验结果表明平均识别率略有提高。
  参考文献:
  [1] Berenzweig A L, Ellis D P W. Locating singing voice segments within music signals[C]. IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics, 2001:119-122.
  [2] Berenzweig A, Ellis D P W. Using Voice Segments to Improve Artist Classification of Music[J]. Proc Aes, 2002:1-8.
  [3] Tsai W H, Wang H M. Automatic singer recognition of popular music recordings via estimation and modeling of solo vocal signals[J]. IEEE Transactions on Audio Speech
其他文献
目前,已经存在的大多数端元提取方法都只利用了图像的光谱特性,而忽略了图像的空间信息。HEEA方法是少数利用图像空间信息进行端元提取的方法之一。而,HEEA方法在考虑图像空间信息时存在两个问题,一是直接利用像元坐标之间的欧氏距离计算光谱邻域权重,这样可能导致的后果是会为相差甚远的像元设置相同的光谱权重。二是该方法需要通过计算像元光谱之间的SID-SAD值,并将该值与事先设置好的阈值进行比较,从而确定
摘要:计算机基础教学在独立学院培养应用型专门人才中起着非常重要的作用,学生的计算机应用能力将影响他们专业课程的学习。随着“互联网 ”时代的到来,慕课将是未来教育的发展方向,计算机基础教学引入慕课,一定会使独立学院的计算机基础教学改革更上一个新台阶。  关键词:独立学院;慕课;教学;研究  中图分类号:G424 文献标识码:A 文章编号:1009-3044(2016)06-0124-02  近几年,
电脑以及手机上的单机游戏已经成为中国年轻人近年来消遣娱乐的重要途径之一,选择一个高效率、多平台、易使用的游戏引擎是绝大多数游戏开发商要面临的首要难题。该文通过案例,给出利用多平台游戏引擎Ren’Py将游戏从设计、制作、到发布的一套相对完整的方案,以此为游戏开发者提供参考。
从铸旋铝合金车轮的热旋压成形工艺出发,分析了A356材料强韧化原因,分析表明:热塑性变形可成为A356铝合金强韧化的新途径,以此为基础发展的铸旋成形工艺可满足汽车轮毂进一步
介绍了3种奥氏体不锈钢材料的特性,主要旋压工艺参数对旋压成形的影响。在不同工艺参数下,采用三旋轮错距、无中间退火、直接强力冷旋压工艺,对3种奥氏体不锈钢管材料进行反
全面梳理体育产业资源交易平台建设基本情况,探析平台运行中存在的问题,并提出相关推进策略。存在问题:优质体育产业资源进场交易少;缺乏合理交易标的估值方法;交易平台整体影响力