论文部分内容阅读
使用场景是近来音乐信息检索领域提出的一个新兴的音乐元数据(或称属性),而目前音乐使用场景有关的研究工作较少,且都处于初期探索阶段。本文主要分析了从网络上采集的音乐数据并提出了一个音乐使用场景高层类别模型,并在此模型基础上,研究并实现了具有较好性能的音乐使用场景自动分类系统。 本文首先介绍了目前领域内已提出的各类音乐使用场景模型,分析其优缺点并给出评述。接下来,回顾了现有研究中与音乐使用场景相关或类似元数据的模型构建方法和自动分类方法。随后,为了有效地分析音乐数据并构建合理地使用场景模型及研究音乐使用场景自动分类方法并比较其性能,本研究花了大量精力来收集音乐数据并通过仔细筛选和特殊的过滤算法构建出一个真实、合理、整洁的音乐基础数据集。 在构建的基础数据集之上,与已有工作不同,本文提出了两类方法用于音乐使用场景模型的构建以及设计了一个验证方法用于评价得到的音乐使用场景模型。第一类方法是从使用场景标签与音乐音频内容对应的角度出发,设计了两个方案,一个是先通过K-means聚类划分音乐类簇,然后在音乐类簇上分析使用场景标签的共现情况,从而得到音乐使用场景高层类别;另一个方案是先对每一个使用场景标签(或称标签类)所关联的音乐音频特征分布估计一个对应的GMM,然后再通过聚类分析这些GMMs之间的相似度,进而获得音乐使用场景的类别模型。第二类方法是从使用场景标签的词汇语义距离角度出发,通过HowNet语义词典来衡量使用场景标签的语义距离,并通过凝聚式层次聚类算法来构建使用场景层次结构模型。本文设计的模型验证方法可以说是一个借助于音乐情感对先前两类建模结果的评价方法,用以深化我们对音乐使用场景在情感维度的认识和理解。 基于上述研究成果,本文推荐了一个八类稳定且具有较高区分度的、基于标签描述词的音乐使用场景类别模型,并在此模型基础上,实现的针对使用场景的音乐自动分类系统相比于原始数据集的多标签分类效果有显著的提升(jAudio特征下接近10个百分点的提高)。另外,对面向使用场景的特征表示的对比研究中,实验结果表明,单类特征中ENA特征表现最好,多模态特征结合中ENA+歌词+MIDI拼接特征效果最好。