论文部分内容阅读
摘 要: 针对于NAO机器人自身语音识别准确率低的问题,提出一种基于NAO机器人的BLSTM-CTC的声学模型研究方法。基于BLSTM-CTC的声学模型进行建模,以BLSTM为声学模型和CTC为目标函数,以音素作为基本建模单元,建立中文语音识别端到端系统。实验结果证明,本文算法相较于NAO机器人自身,取得了良好识别效果。
关键词: 语音识别; BLSTM-CTC; NAO
文章编号: 2095-2163(2021)03-0076-05 中图分类号: N33 文献标志码:A
【Abstract】Aiming at the problem of low accuracy of NAO robot’s own speech recognition, an acoustic model research method based on NAO robot BLSTM-CTC is proposed.Based on the acoustic model of BLSTM-CTC, an end-to-end system for Chinese speech recognition is established by taking BLSTM as the acoustic model and CTC as the objective function, and taking phonemes as the basic modeling unit.Experimental results show that compared with NAO robot itself, the proposed algorithm achieves good recognition performance.
【Key words】 speech recognition; BLSTM-CTC; NAO
0 引 言
语音识别是语音信号处理领域的一项重要研究内容,其中的基于深度学习的识别方法则在近年来引起了学界的广泛关注[1]。基于深度学习的识别方法是利用神经网络来构建模型、训练数据,并已取得了较好的识别效果,现正广泛应用于智能家居以及相关的学术研究等领域。作为备受学界瞩目的智能机器人,NAO本身自带语音识别模块,但却因受到自身处理速度和存储能力的限制,识别效果一般。考虑到NAO机器人自身的软硬件资源较为有限,只依靠NAO自身来提高语音识别准确率的难度较大。基于此,本文即提出以了BLSTM[2]为声学模型和CTC为目标函数,利用WFST进行解码,对模型结构进行训练和学习,并将其移植到NAO机器人上,从而获得更好的识别结果,提升机器人的学习能力。
1 模型结构
LSTM(Long Short-Term Memory)最早由Hochreiter
关键词: 语音识别; BLSTM-CTC; NAO
文章编号: 2095-2163(2021)03-0076-05 中图分类号: N33 文献标志码:A
【Abstract】Aiming at the problem of low accuracy of NAO robot’s own speech recognition, an acoustic model research method based on NAO robot BLSTM-CTC is proposed.Based on the acoustic model of BLSTM-CTC, an end-to-end system for Chinese speech recognition is established by taking BLSTM as the acoustic model and CTC as the objective function, and taking phonemes as the basic modeling unit.Experimental results show that compared with NAO robot itself, the proposed algorithm achieves good recognition performance.
【Key words】 speech recognition; BLSTM-CTC; NAO
0 引 言
语音识别是语音信号处理领域的一项重要研究内容,其中的基于深度学习的识别方法则在近年来引起了学界的广泛关注[1]。基于深度学习的识别方法是利用神经网络来构建模型、训练数据,并已取得了较好的识别效果,现正广泛应用于智能家居以及相关的学术研究等领域。作为备受学界瞩目的智能机器人,NAO本身自带语音识别模块,但却因受到自身处理速度和存储能力的限制,识别效果一般。考虑到NAO机器人自身的软硬件资源较为有限,只依靠NAO自身来提高语音识别准确率的难度较大。基于此,本文即提出以了BLSTM[2]为声学模型和CTC为目标函数,利用WFST进行解码,对模型结构进行训练和学习,并将其移植到NAO机器人上,从而获得更好的识别结果,提升机器人的学习能力。
1 模型结构
LSTM(Long Short-Term Memory)最早由Hochreiter