基于NAO机器人的BLSTM-CTC的声学模型研究

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:a_hai1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 针对于NAO机器人自身语音识别准确率低的问题,提出一种基于NAO机器人的BLSTM-CTC的声学模型研究方法。基于BLSTM-CTC的声学模型进行建模,以BLSTM为声学模型和CTC为目标函数,以音素作为基本建模单元,建立中文语音识别端到端系统。实验结果证明,本文算法相较于NAO机器人自身,取得了良好识别效果。
  关键词: 语音识别; BLSTM-CTC; NAO
  文章编号: 2095-2163(2021)03-0076-05 中图分类号: N33 文献标志码:A
  【Abstract】Aiming at the problem of low accuracy of NAO robot’s own speech recognition, an acoustic model research method based on NAO robot BLSTM-CTC is proposed.Based on the acoustic model of BLSTM-CTC, an end-to-end system for Chinese speech recognition is established by taking BLSTM as the acoustic model and CTC as the objective function, and taking phonemes as the basic modeling unit.Experimental results show that compared with NAO robot itself, the proposed algorithm achieves good recognition performance.
  【Key words】 speech recognition; BLSTM-CTC; NAO
  0 引 言
  语音识别是语音信号处理领域的一项重要研究内容,其中的基于深度学习的识别方法则在近年来引起了学界的广泛关注[1]。基于深度学习的识别方法是利用神经网络来构建模型、训练数据,并已取得了较好的识别效果,现正广泛应用于智能家居以及相关的学术研究等领域。作为备受学界瞩目的智能机器人,NAO本身自带语音识别模块,但却因受到自身处理速度和存储能力的限制,识别效果一般。考虑到NAO机器人自身的软硬件资源较为有限,只依靠NAO自身来提高语音识别准确率的难度较大。基于此,本文即提出以了BLSTM[2]为声学模型和CTC为目标函数,利用WFST进行解码,对模型结构进行训练和学习,并将其移植到NAO机器人上,从而获得更好的识别结果,提升机器人的学习能力。
  1 模型结构
  LSTM(Long Short-Term Memory)最早由Hochreiter
其他文献
摘要:随着人们自驾出游的频率逐步提高,城市交通拥挤堵塞的情况时常出现,给应急指挥车的救援带来诸多不便,为使应急指挥车能够机动灵活地深入城市各个角落,及时有效解决各类突发事故,通过ArcMap以城市交通道路为源构建了网络数据集,将城市交通道路网抽象为图的结构,使用邻接表以及二叉排序树结构对传统Dijkstra算法进行了改进,并基于改进后的Dijkstra算法,采用ArcGIS Engine、Visu
针对肌肉电信号(EMG)控制假手的需求,介绍了一种仿生机械手的设计和控制仿真.此机械手优势在于关节和手指尺寸完全还原真实人手的大小.首先,在多自由度的基础上,建立了五指的
摘 要: 从医疗文本中抽取知识对构建医疗辅助诊断系统等应用具有重要意义。实体识别是其中的核心步骤。现有的实体识别模型大都是基于标注数据的深度学习模型,非常依赖高质量大规模的标注数据。为了充分利用已有的医疗领域词典和预训练语言模型,本文提出了融合知识的中文医疗实体识别模型。一方面基于领域词典提取领域知识,另一方面,引入预训练语言模型BERT作为通用知识,然后将领域知识和通用知识融入到模型中。此外,本
提出结合CAN矩阵对报文数据场信号的具体定义提取特征,训练LSTM网络在多个时间步长上,对一些重要的信号进行预测,引入观测值得到预测误差矩阵.使用多元高斯分布对误差矩阵建
摘 要: 城市轨道交通系统站点之间相互影响,若列车在某一站点产生初始延误,该延误的影响会向周边列车或站点传递,产生严重后果。本文首先基于图论理论,建立站点分层重构的有向图延误模型,综合考虑了节点的连通作用,对节点的重要度排序,然后结合故障树分析法对发生故障的节点深入分析,找出导致列车发生故障的底事件,从而更加高效地处理故障。该方法不仅可以迅速辨识故障发生的原因,还准确预测了故障消散的节点和故障消散
在工业4.0的推动下,智能制造备受关注,智能制造的生产模式及其结构现已成为瞩目焦点.全文通过以集成制造、数字制造、网络制造为基础,构建智能制造框架,分别解释集成制造、数
摘 要: 牵引系统身为地铁车辆的关键系统之一,提升其可靠性对于改善整个地铁车辆的可靠运行尤为重要。但是,牵引系统的结构复杂,且失效模式多样,采用传统的可靠性分析方法较为困难。针对这一问题,提出了一种基于贝叶斯网络的系统可靠性评估方法,并结合故障树法,对地铁车辆牵引系统的可靠性进行建模和分析。以某地铁牵引系统为例,利用贝叶斯网络模型计算出牵引系统的可靠度;通过贝叶斯网络的双向推理能力,找出对牵引系统
为实时了解骑行者的骑行状态,便于其调整骑行举动,设计了基于物联网平台的自行车多功能码表.选用AT89C52作为主控芯片,结合传感器技术、WiFi技术、物联网平台实现了包含计算
摘 要: 与传统波叠加法通过逆问题求解获得源强不同,提出一种基于粒子滤波的波叠加算法来实现正向求解源强。该方法基于波叠加理论建立状态空间模型,根据初始化粒子的先验信息预测并更新状态向量。通过权重计算和重采样,估计等效源的强度及其位置,进而重建三维辐射声场。仿真分析与实验验证表明,该算法可避免逆问题求解中的不适定性难题,实现声场的高精度重建。  关键词: 粒子滤波; 波叠加; 声源定位; 声场重建 
目前用于图像识别的大多数卷积神经网络(CNN)都使用相同的原理构建,即:卷积层、池化层、全连接层。文中使用密集卷积神经网络重新评估了用于图像识别的所有组件,并对池化层不存在的必要性提出了质疑。经过实验,分析发现池化层可以由步幅增加的卷积层代替,却不会降低图像识别的准确率。研究中则在DenseNets上训练提出的由卷积层替代池化层的方法,组成新的卷积神经网络体系结构,并在多个图像分类的数据集(CIF