论文部分内容阅读
随着语音识别理论的成熟和一些相关算法在语音识别技术实用化进程中被采用,语音识别技术朝着实用化方向深入发展。人机交互(HCI)技术是研究人与计算机之间相互理解交流与通信(包括输入和输出),从而帮助人们完成信息管理服务与处理功能的一项技术。新一代人机交互技术的提出是最近20年计算机科学领域的热门课题,获得国内外极大关注,相关科研机构和公司投入大量的人力和财力进行创新型和实用型研究,其中智能人机交互技术作为一项研究的关键技术。在实际中表现在:目前智能电子产品如智能手机及平板电脑的竞争已经演变成为操作体验的竞争。新一代人机交互强调如下几个特点:“以人为中心”、多模式交互、智能感知、多维度环境中的交互等。来自2011年下半年的数据显示智能手机和平板电脑的出货量首次超过PC,宣告地球已经进入移动互联网时代,同时宣告手持计算成为当今的最重要的计算模式之一,但是手持计算中HCI的自然性不高和交互效率问题暴露得很明显,多通道交互方式和多通道用户界面能够有效地提高它的人机交互的效率。将基于语音识别的输入方法和语音合成的输出方法的交互方式融入到新一代人机交互模式中去,成为了完善人机交互手段的一种新思路,具有探讨的必要性和较高的实际应用价值。对语音智能HCI技术实现的关键环节即输入通道的语音模型的建立进行了分析,包含语音通道的优势以及缺陷,提出了相应的解决方法,这里介绍了引入其它辅助交互输入方式。重点分析了语音信号的识别方法,包含语音信号的产生模型、预处理、参数提取和处理、识别算法。然后分析了数字音乐播放器命令的语音库到控制命令的映射。最后分析了手持移动平台智能HCI语音输入通道模型的建立,并在流行的移动智能操作系统Android上予以实现,移动终端无时无刻都具有联网优势,这里探讨了利用服务器完成识别,从而减轻移动终端的计算负担的技术,给出了具体软件开发内容。整篇文章内容上涵盖了语音识别智能HCI输入通道的建立过程。在语音前端处理中对预加重和端点检测给出了分析,在语音参数选择上,分析了LPC、LPCC和MFCC参数,以及在语音识别的模型分析中,结合目前移动终端的处理能力和实际应用需求,对基于DTW的模板匹配算法做出了详细分析,以及对MKM聚类算法做了分析。通过一些仿真实验的分析,取得了一些有意义的结果。算法能够保证较好的实时性要求,取得了较高的识别率,从而为实际应用提供了保证。本课题面向人机交互在数字音乐播放器平台的应用,针对该平台移动环境下的实际需要,对其进行了交互需求分析及评价,并分析了语音交互模型,针对手持计算平台Android给出的具体软件设计分析,这里实现的智能HCI系统实现了人机自然友好交互。