环境辅助的混合声音事件检测方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:yy13720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息传递的第一载体,声音信号中蕴藏着大量的信息,如何通过计算机自动捕捉有效信息从而实现混合声音事件检测逐渐成为研究主流。混合声音事件检测(polyphonic AED)的目的是识别连续声信号中出现的声音事件,标记出混合在同一语音信号中的不同事件发生的始末时间。声音事件检测可用于多种应用场景,如声学监控、自动音频索引等,因此对于声音事件检测的研究具有极其重要的社会意义。目前,已存在的声音事件检测方法只能通过全局特征来识别不同的声音事件,当声音事件多且复杂时,这种全局特征无法很好地表达每类事件,从而导致检测性能较低。尤其当大量目标事件存在时,检测性能急剧下降。针对不同类别的声音事件,如何学习特定于事件的更具区分性的特征,目前还未见报道;此外,现有方法未考虑环境上下文信息,环境上下文信息中包含了许多有利于引导声音事件检测的有用信息,忽略这些信息将影响环境鲁棒的声音事件检测,即发生在不同环境背景下的同一事件无法很好地被识别。鉴于以上两种挑战,分别提出一种基于解散表达学习的声音事件相关的特征学习方法和一种环境辅助的声音事件检测方法。文章的主要内容和创新点如下:(1)提出基于监督变分自动编码器的声音事件特征解散学习方法。该方法引入全新的解散约束,使β-变分自动编码器(β-VAE)能够从语音信号中学习到生成因子(generative factors),以监督学习的方式解散出声音事件相关的隐因子(latent factors),并且通过特征区块(feature blocks)或注意力机制(attention mechanism)为每种声音事件学到特定的解散表达(disentangled representation)。实验结果表明:基于解散表达学习声音事件的相关特征学习能显著提升声音事件检测性能,在DCASE 2017比赛数据库上,该方法优于比赛的两个最佳模型(最高F1模型J-NEAT和最低ER模型CRNN);在Freesound数据集上,该方法在大量目标事件检测情况下评价指标值(如20种目标声音事件检测情况下,F1=85.09%)远高于基准模型(DNN,F1=41.39%)和主流方法(CRNN,F1=71.30%)。(2)提出环境辅助的多任务混合声音事件检测模型(EAMT model)。该模型通过多任务学习方式学习具有场景鉴别能力的环境上下文特征,该特征可以很好地学习到声音事件发生的背景环境以及该环境下与声音事件相关的隐藏信息。利用该特征来辅助声音事件的检测,可有效增强模型对环境变化的鲁棒性从而提高事件检测的性能。实验结果表明:环境辅助的多任务混合声音事件检测模型在主流数据库上进一步提升了事件检测性能,同时还能够容忍环境的变化,即发生在不同场景下的同一类事件也能够很好地被检测。比如,在Freesound数据集上,当环境发生变化时,本文提出的方法事件检测F1分数为87.01%,而基准模型DNN和主流方法CRNN分别为仅82.24%和85.76%。(3)设计并实现环境辅助的混合声音事件检测原型系统。采用Python程序设计语言和Keras深度学习框架设计并实现环境辅助的混合声音事件检测原型系统。该系统包含数据预处理、事件相关的解散特征提取、环境辅助的多任务声音事件检测模型以及结果可视化四个模块。其中,提出的基于解散表达学习的声音事件相关特征学习方法和环境辅助的多任务混合声音事件检测方法均在该原型系统中得以实现。通过该原型系统的实现来展示和验证本文提出方法的有效性和实用性。
其他文献
对亚磷酸二甲酯的合成工艺、操作方法、控制参数进行了研究,制得含量高、质量好的亚磷酸二甲酯产品。
慢性肾衰竭是各种病因导致肾脏损害和进行性恶化的结果,因病死率高及治疗费用昂贵,已成为全球性的健康问题,维持性血液透析(maintenancehemodialysis,MHD)是目前治疗慢性肾衰竭
我国水体富营养化形势严峻。氮磷是引发水体富营养化的重要营养源。本论文研究依托水专项湖泊主题“富营养化初期湖泊(洱海)水污染综合防治技术及工程示范项目,上游入湖河流
尽管中国传媒目前已经基本上依靠市场赢利而生存,并因此获得了作为行为主体的相对独立性,却仍然存活于党的新闻事业这一基本体制内.综观我国传媒体制改革的历程和现状,应该说
1牛肉的初加工牛被宰杀放血后,再经剥皮、剖腹摘除内脏、排酸、修割整理之后,即剩下了牛肉。通常还需对牛肉进行初步加工,其中包括牛肉的分割、牛骨的剔除。肉的分割是指牛肉
<正>多式联运有可能上升到国家战略层面,其中一定有深层的原因。今年发改委做了三个跟多式联运有关的重点课题,提出很多建议,研究了一些结论。今天我谈多式联运,会把一些研究
<正>鲜花,奖牌,掌声。8月19日,来自国电浙江北仑公司的张立走上了全国60万千瓦机组集控运行比武的最高奖台。如果说台上的张立,风光无限。那么,台下的张立,却是15年如一日,以
《蝇王》这部小说情节看似简单,但却蕴含了广阔的阐释空间。小说深邃的内涵主要得自于威廉.戈尔丁所运用的大量象征手法。本文着重探讨的是这部小说中为诸多学者所忽略的一个
薄膜电容卷绕机是薄膜电容器生产工艺中的重要设备之一。介绍了JR-28薄膜电容卷绕机设计中所涉及的机械结构、电气控制等方面的技术,对整机的工作原理、特性、技术创新等做了
微小型齿轮是微机电系统的主要零部件,其加工工艺是微机电系统的重要技术。总结并分析了微小型齿轮加工的各种工艺方法,包括LIGA和准LIGA、WEDM工艺、微塑性成形、微刻蚀加工