【摘 要】
:
语音带宽扩展旨在利用窄带语音和宽带语音之间的数学关系恢复窄带语音缺失的高频成分,这项技术有助于公共交换电话网、电话在线会议、蓝牙等一些窄带传输语音提升带宽,也可以用于老旧音频修复等媒体生产领域,还可以结合语音识别等其他信号处理领域提升性能。现有基于深度学习的语音带宽扩展算法主要分为时域和频域两个研究方向,时域算法基于波形建模,波形包络千差万别,规律十分复杂;频域算法基于频域特征建模,频域特征图能直
论文部分内容阅读
语音带宽扩展旨在利用窄带语音和宽带语音之间的数学关系恢复窄带语音缺失的高频成分,这项技术有助于公共交换电话网、电话在线会议、蓝牙等一些窄带传输语音提升带宽,也可以用于老旧音频修复等媒体生产领域,还可以结合语音识别等其他信号处理领域提升性能。现有基于深度学习的语音带宽扩展算法主要分为时域和频域两个研究方向,时域算法基于波形建模,波形包络千差万别,规律十分复杂;频域算法基于频域特征建模,频域特征图能直观的展示隐藏于波形下的深层语音信息。因此,本文选取频域算法作为研究方向,包括:一、提出基于Flatten-FFTNet-IESC的语音带宽扩展算法。针对现有主流频域算法网络难以拓展和未利用时间轴信息的问题,提出Flatten处理法去掉频率轴最后一个点并将时频两轴转换为一轴,使频域算法网络输入输出维度和时域算法完全一致。针对现有主流频域算法网络特征提取能力不足的问题,提出采用FFTNet多路分裂网络并增加IESC结构。实验结果表明,Flatten-FFTNet-IESC极大提升了评价指标,但网络维度高训练成本大。二、提出基于Flatten-CNN的语音带宽扩展算法。首先为了便于搭建网络和利用时间轴信息,沿用Flatten处理法;接着针对Flatten-FFTNet-IESC网络维度过高的问题,提出采用编解码器结构卷积神经网络降低维度以减少训练成本;最后为了利用时域信息,在损失函数中引入时域损失。实验结果表明,Flatten-CNN减少了训练成本,网络大体保持了特征提取能力,但生成的对数功率谱细节依然有提升空间。三、提出基于Flatten-WGAN-GP的语音带宽扩展算法。为了继续增强FlattenCNN生成对数功率谱细节表现,引入Wasserstein生成对抗网络,利用生成对抗网络达到纳什均衡时判别器难以鉴别真实样本和生成样本,使生成的对数功率谱细节表现不断接近真实对数功率谱。针对Wasserstein生成对抗网络判别器参数分布不合理、鉴别能力下降的问题,提出引入梯度惩罚代替权重剪裁。实验结果表明,Flatten-WGAN-GP提升了对数功率谱细节表现,梯度惩罚的Wasserstein生成对抗网络比Wasserstein生成对抗网络评价指标更优、训练速度更快。
其他文献
近些年随着互联网产业的发展,语音识别技术的应用越来越广泛。基于注意力机制的端到端语音识别模型(Attention-based Encoder-decoder End-to-end ASR model,AED)由于训练简单,效果比传统的语音识别模型更好,得到了大规模的应用,并且成为了学术界的研究重点。但是AED模型容易学习到语言偏见从而影响模型的识别准确率。因此需要消除AED模型中的语言偏见才能进一
无人机自组网具有节点自由移动、拓扑动态变化、信道带宽受限、节点分布不均等特点,因此设计良好的路由协议是构建无人机自组网的关键。由于无人机自组网中节点高速移动导致网络拓扑结构剧烈变化,严重影响了网络性能,一方面基于拓扑结构的传统路由协议无法取得良好的路由性能,另一方面随着定位技术的发展,无人机能方便获取位置信息,使得基于地理位置信息的路由协议被广泛应用在无人机自组网中。本文重点研究经典的地理位置路由
近年来,5G通信技术凭借其更低的网络延迟和更快的数据传输速度,正逐步取代4G成为移动通信中的研究热门。5G的主要应用频段包括Sub-6GHz和毫米波频段,其中毫米波频段通信对射频器件和天线结构都提出了更高的要求。5G毫米波通信的关键技术主要包括大规模天线技术(Massive MIMO)、波束赋形技术和波束管理技术,这要求所设计的5G毫米波天线有更大的阵列规模,更快的波束切换速度和更大的波束扫描范围
提高系统的频谱效率,增加资源的利用率以及降低信号检测系统的复杂度是无线通信研究领域的关键问题。正交频分复用索引调制(Orthogonal Frequency Division Multiplexing with Index Modulation,OFDM-IM)是索引调制在频域内应用的一项提高无线通信系统能源效率的极具潜力的技术,但由于OFDM-IM不激活的子载波无法调制信息且激活的子载波仅采用相
目前,我国心智障碍者数量已突破千万,心智障碍者成为了一个庞大的弱势群体,走进了公众的视野。随着医疗技术的不断进步,心智障碍者的健康得到了前所未有的保障,其平均寿命也在不断延长。与此同时,心智障碍者的照料者也逐渐步入老年,此类由大龄心智障碍者与年迈照料者所构成的家庭被称为“心智障碍者双老家庭”。与普通家庭相比,双老家庭不仅需要应对心智障碍者的照料问题,还需要解决照料者的老化问题,始终存在着“残障”与
在音乐的发展历程中,计算机技术曾起到过重要的推进作用。正是计算机技术将音乐电子化、数字化,音乐才能传遍天南海北,传进千家万户。随着计算机科学高速发展,人工智能算法已经在生活中的许多场景得到应用,然而智能算法在音乐领域的应用稍显单薄。这是由于音乐的结构比常见的文本更为复杂,其背后的艺术性也较难以量化描述,给算法理解带来了难度。歌词和旋律是音乐中两个最为重要的要素。为了实现音乐创作,现阶段的歌词生成任
髓系细胞对于人体免疫功能的形成至关重要,独立生长因子1(GFI1)在维持髓系细胞正常发育中具有重要作用,其功能失调会导致各种不同的髓系疾病,比如骨髓增生异常综合征(MDS)、严重先天性中性粒细胞减少症(SCN)等,但GFI1对髓系发育的影响尚未明晰,因此研究它对髓系发育的影响对于完善GFI1调控造血发育网络,进一步理解GFI1相关髓系疾病的发生发展以及为临床治疗提供新方法具有重要意义。斑马鱼是研究
扶残助残是社会文明程度的重要标杆,发展残疾人社区服务正是国家和社会关爱和帮助残疾人的体现。社区是身心障碍人士生活、发展的重要聚居体,是助残服务能够长效、持久、深入开展的重要载体。社会工作机构正以服务购买项目的形式参与到残疾人服务中,开展社会工作残疾人服务实践。为了提升残疾人服务的质量,社会工作资源整合是一个重要议题,即在社会工作服务过程中,社会工作者为协助服务对象摆脱当前困境而帮助其梳理和获取来自
随着人口老龄化的不断加剧和国家对老年教育的大力支持,老年大学作为实现老年教育的重要载体,在我国蓬勃发展。然而,由于社会经济的快速发展以及我国老年群体架构、需求不断的变化,现有老年大学难以满足老年人多样化的学习需求。另一方面,当前老年大学的设计与建设在国内仍然缺乏系统的理论指导,导致一些老年大学的建设存在功能与需求不匹配的地方。因此,有必要对老年大学建筑进行系统性研究。基于上述背景,笔者选取南方地区
在生产力快速扩张的背景下,市场有效需求不足,实体领域收益率不断走低,而金融领域普遍具有较高的投资收益率。因此,大量实体企业纷纷试水进入金融领域逐利,非金融企业金融化成为普遍现象。但非金融企业过度追求金融化带来的短期收益,容易导致企业“短视”而忽略企业生产经营业务的可持续发展,进而可能对就业产生不利影响。而就业是民生之本、财富之源,攸关社会稳定。因此,本文结合我国的现实背景,探讨我国非金融企业金融化