音乐使用场景建模与自动分类的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:cxn0371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用场景是近来音乐信息检索领域提出的一个新兴的音乐元数据(或称属性),而目前音乐使用场景有关的研究工作较少,且都处于初期探索阶段。本文主要分析了从网络上采集的音乐数据并提出了一个音乐使用场景高层类别模型,并在此模型基础上,研究并实现了具有较好性能的音乐使用场景自动分类系统。  本文首先介绍了目前领域内已提出的各类音乐使用场景模型,分析其优缺点并给出评述。接下来,回顾了现有研究中与音乐使用场景相关或类似元数据的模型构建方法和自动分类方法。随后,为了有效地分析音乐数据并构建合理地使用场景模型及研究音乐使用场景自动分类方法并比较其性能,本研究花了大量精力来收集音乐数据并通过仔细筛选和特殊的过滤算法构建出一个真实、合理、整洁的音乐基础数据集。  在构建的基础数据集之上,与已有工作不同,本文提出了两类方法用于音乐使用场景模型的构建以及设计了一个验证方法用于评价得到的音乐使用场景模型。第一类方法是从使用场景标签与音乐音频内容对应的角度出发,设计了两个方案,一个是先通过K-means聚类划分音乐类簇,然后在音乐类簇上分析使用场景标签的共现情况,从而得到音乐使用场景高层类别;另一个方案是先对每一个使用场景标签(或称标签类)所关联的音乐音频特征分布估计一个对应的GMM,然后再通过聚类分析这些GMMs之间的相似度,进而获得音乐使用场景的类别模型。第二类方法是从使用场景标签的词汇语义距离角度出发,通过HowNet语义词典来衡量使用场景标签的语义距离,并通过凝聚式层次聚类算法来构建使用场景层次结构模型。本文设计的模型验证方法可以说是一个借助于音乐情感对先前两类建模结果的评价方法,用以深化我们对音乐使用场景在情感维度的认识和理解。  基于上述研究成果,本文推荐了一个八类稳定且具有较高区分度的、基于标签描述词的音乐使用场景类别模型,并在此模型基础上,实现的针对使用场景的音乐自动分类系统相比于原始数据集的多标签分类效果有显著的提升(jAudio特征下接近10个百分点的提高)。另外,对面向使用场景的特征表示的对比研究中,实验结果表明,单类特征中ENA特征表现最好,多模态特征结合中ENA+歌词+MIDI拼接特征效果最好。  
其他文献
处理器性能一直是处理器设计的主要目标。如何充分开发和利用指令间的并行是提升单核处理器性能的关键。超标量技术是现代处理器设计中广泛使用的技术,它通过多发射、动态调度
国家及自治区高度重视新疆少数民族语言信息处理,从早期的文字处理技术,到目前语音处理技术以及汉语与少数民族语言的自然语言理解处理技术等,所有工作都是围绕“缩小民族间数字
Web应用安全是信息安全的一个分支,主要涉及Web站点、Web应用和Web服务的安全问题。随着Web应用安全事件的频繁出现及其带来的巨大危害,Web应用的安全问题已成为业界广泛关注的
目前,随着计算机和数字技术的迅速发展,图像已经成为信息存储和传递的重要工具。深度图作为表征场景三维结构的图像,在三维重建领域发挥着非常重要的作用。然而在实际应用中,普通
近年来随着智能手机等移动终端的不断发展,很多传统意义上个人电脑和其它影音设备的功能也逐渐由移动设备上的各种各样的应用所取代。然而,受自身性能的影响和束缚,移动设备的相
近年来,随着集成电路工艺的不断发展,处理器与主存之间的速度差距日益增大;同时,随着超标量流水线、乱序发射执行等先进技术的引入,处理器的计算能力得到了大幅度的提升,从而对存
半导体装备业是一个投资密集、技术密集、发展迅速、竞争激烈的产业。如今,半导体装备制造的过程正逐渐趋于标准化,使用一种将数个机台整合在一起的集束式制造设备作为标准化生
处理器设计的日益复杂和设计时间上的限制,使得更为有效地进行处理器性能分析和优化成为当代处理器设计者面临的重大问题和挑战。  硬件性能监视器是现代处理器芯片中提供的
计算机网络与电视网络的融合为数字电视带来了越来越丰富的应用,数字电视接收端系统设计也从传统的采用数字电视专用芯片的结构,逐渐向基于高性能通用计算机系统芯片的结构方向
概率模型检查在分析系统的可靠性、可用性等方面有非常重要的作用。在一些嵌入式控制系统或自适应系统中,运行环境是经常变化的。这些变化会导致模型的改变,也就需要我们频繁地