【摘 要】
:
人类听觉系统能够轻易关注感兴趣的声音并自动忽略无关的干扰声音,但这对计算机系统来说无疑是一项挑战。在单人与机器人对话场景中,目前的对话系统能够很好地完成目标语音识别,并给出正确的响应。然而,当目标说话人有多个时,不同说话人的语音相互干扰,大大降低了对话机器人进行语音信号处理的性能,导致系统无法稳定跟踪并识别每个说话人的语音,从而限制了智能对话机器人的广泛应用。多人场景下语音的准确分离是实现人机正常
论文部分内容阅读
人类听觉系统能够轻易关注感兴趣的声音并自动忽略无关的干扰声音,但这对计算机系统来说无疑是一项挑战。在单人与机器人对话场景中,目前的对话系统能够很好地完成目标语音识别,并给出正确的响应。然而,当目标说话人有多个时,不同说话人的语音相互干扰,大大降低了对话机器人进行语音信号处理的性能,导致系统无法稳定跟踪并识别每个说话人的语音,从而限制了智能对话机器人的广泛应用。多人场景下语音的准确分离是实现人机正常交互的前提,因此,如何将说话人语音从混合语音中分离出来,是提升复杂声学环境中对话机器人交互能力的关键,这也正是语音分离技术所研究的内容。针对上述问题,本课题开展基于深度学习的单声道语音分离研究,构建基于注意力机制的语音分离模型,实现混合语音的稳定分离。具体研究内容如下:(1)设计一种改进的双路径RNN单通道时域语音分离方法:首先,对典型的时域语音分离方法进行深入探索,使用不同网络参数进行实验,优化模型参数,提高语音分离效果。此外,针对现实场景对话机器人系统语音分离问题,设计一种改进的双路径RNN语音分离方法,减小模型尺寸,提高语音分离效率,进而提升对话机器人在多人场景中的交互能力。在GRID-2mix数据集下的实验表明,改进的双路径RNN模型与原始结构相比,分离结果的尺度不变信噪比的提升(SI-SNRi)与信号失真比的提升(SDRi)指标差别不大,但模型尺寸减小了22%。(2)提出基于自适应注意力网络的时域语音分离方法:为了使语音分离模型对特征的建模更加完善,在双路径网络的基础之上,设计了一种自适应注意力网络,即通过向双向长短时记忆神经网络(Bi-LSTM)中嵌入卷积注意力模块(CBAM)作为局部注意力网络,用于提取语音信号的局部细节信息;使用Transformer作为全局注意力网络,用于提取语音信号的全局关联信息。通过这种方式,模型能同时关注语音信号中的局部细节与全局关联信息,进而提升语音分离性能。实验结果表明:基于自适应注意力网络的时域语音分离方法分离性能有显著提升。在WSJ0-2mix数据集上,SI-SNRi和SDRi分别为20.7 d B和20.9 d B,与DPRNN相比分别提升了10.1%和10.0%。(3)设计并实现多人对话机器人语音分离系统:为提升多人场景下对话机器人的语音识别准确度,结合自适应注意力语音分离模型,设计一套完整的语音分离软件系统。系统采用前后端分离式设计,在机器人平台完成混合语言的采集与录入、分离后语音可视化展示等操作;在服务器端实现语音分离模型构建、训练与部署,供机器人端访问。系统遵循高内聚、低耦合设计原则,操作便捷,可用性强。
其他文献
背景:椎间盘退变是导致腰痛的最常见原因之一,内源性髓核来源间充质干细胞的数量减少及功能减退可能是导致椎间盘退变的重要原因,一定范围内的淫羊藿苷可能通过PI3K/Akt信号通路减少间充质干细胞凋亡。目的:探讨淫羊藿苷调控髓核来源间充质干细胞凋亡的可能机制。方法:获取SD大鼠退变椎间盘髓核来源间充质干细胞,以不同浓度淫羊藿苷干预第3代髓核来源间充质干细胞,CCK-8法检测细胞活力及增殖情况。将第3代髓
在日新月异、竞争激烈的商业环境中,企业面临着巨大的创新压力。由具有不同技能、观点和信息的成员组成的工作团队,更有能力应对组织面临的创新问题,因而更受组织青睐。所以如何提高组织中工作团队的创新绩效对企业乃至国民经济的发展意义非凡。与此同时,随着员工学历水平的大幅提升,企业还面临着无法最大程度发挥员工优势而浪费人力资本的严重问题。团队创新的实现依赖各团队成员发挥自我优势所带来的团队认知资源的扩展,这为
目的 探讨应用心腔内超声(ICE)对心房颤动(简称房颤)导管消融手术的影响。方法 选取云南省第一人民医院2016年3月至2019年10月入院并接受射频消融手术治疗的阵发性和持续性房颤患者共205例,依据术中是否使用ICE导管分为2组,超声组102例(阵发性房颤70例,持续性房颤32例),非超声组103例(阵发性房颤70例,持续性房颤33例),各组再依据房颤类型又分为阵发性房颤与持续性房颤亚组;超声
为了实现技术技能型人才的培养目标,推进“三教”改革,高职院校的教学质量评价体系必须持续完善和改进,人才培养机制的有效性才能得到保障,实践教学才能有效开展,教学质量才能全面提高。本文分析了以培养具有技术技能型人才为目标的高职院校教学质量评价现状,并针对存在的问题提出相应的解决措施,以便促进高职院校的教学评价体系得到进一步的完善,加速技术技能型人才的培养质量得到进一步提升,从而为经济社会高质量发展贡献
美是视觉的享受,美术教学是打开学生心灵窗户的钥匙。只有从学生的角度出发,了解学生的实际需要,进入到学生的心灵之中,才能够将美术课堂的教育内涵传递给学生,从而使得美术课堂充满着艺术化的情趣,才能够真正意义上的提升学生的审美能力,促进学生全面发展。时代进步发展的背景下,我国教育要求也逐渐改变,教育形式也从以往的培养拥有理论知识的专业人才,转为现阶段培养综合发展的复合型人才。从教育的角度来看,为学生培养
1998年我国开始住房体制改革,在国家多项政策的扶持下,我国房地产业发展势头强劲。尤其是在2008年以后,我国房地产业呈现“量增价升、购销两旺”的繁荣景象,成为中国新一轮的消费热点和经济增长点。据国家统计局统计,从2000年到2019年,每天新注册的房地产企业大约有160家,房地产业的增加值对社会经济的贡献率由5.7%上升到7.0%,其比重逐渐提高,对国民经济具有支柱性作用。然而伴随着房地产市场的
目的 探讨阻塞性睡眠呼吸暂停低通气综合征(OSHAS)临床特征的性别差异和女性OSAHS患者的独特临床表型。方法选取2017年1月至2020年12月在宁波市医疗中心李惠利医院初次确诊且之前未接受相关诊治的OSAHS患者1 108例为研究对象,其中男936例,女172例。比较不同性别OSAHS患者临床表现、合并症和多导睡眠监测(PSG)结果,采用二元logistic回归分析性别对OSAHS合并症及重
<正>粮食储备制度的制定与完善,是为了有效防控粮食流通中可能存在的风险,确保国内粮食市场的稳定,为应对粮食安全突发事件夯实物质基础。相关数据表明,过去5年时间里全球共有39个国家和地区经历了粮食危机,而且每年处于严重粮食不安全状态中的人数还在不断上升,再加上国家和地区之间的冲突、疫情造成的经济危机等,各国不约而同地收紧了粮食出口,导致国际市场上的粮食供给缩减而需求剧增,如果过去主要通过进口粮食来保
随着新能源汽车的普及率不断提高,与新能源汽车相关的产业迅速发展,这些产业需要大量的新能源技术专业方面的人才,新能源汽车技术专业方向的人才教育培训需求也随之日益增加,当下新能源汽车技术专业已成为热门专业,下文讨论关于高职新能源汽车技术专业建设方面的问题。