论文部分内容阅读
说和听是人类最为重要的信息获取和传达的手段。与文字等信息交流方式相比,基于语音的交互是绝大多数人所掌握的最普及、最自然的交互方式,不受使用者的教育水平和专业分类的约束。而随着智能机器人的发展和高性能计算机的普及,若能够以语音作为计算机或者智能机器人与使用者交互界面,将会极大的提升计算机和机器人的易用性、友好性,为人们在信息时代的生活带来巨大的便利。自主心智发育作为一个新兴的理论框架,有潜力解决传统方法难以解决的复杂问题和跨任务问题。因此,将自主心智发育理论框架和已有的高性能方法结合起来,使智能机器人能够具备更强的语音交互能力,是一个值得深入探索的理论方向。传统语音处理方法中需要针对特定领域、语言进行人工分析和设计以及人工干预训练,从而导致这些方法对环境的适应能力以及对新语言新领域的扩展能力较弱,不能达到智能机器人在自然环境中为人类服务的设计要求。本文针对这个问题,以自主心智发育理论框架的任务无关的思想为前提,引入递增计算、在线计算、在位计算等原理,通过对语音处理研究中的经典的隐马尔可夫方法进行改进和扩展,将其融入到自主心智发育理论框架中,提出了双隐层马尔可夫模型,作为听觉感知映射模块的核心模型,为自主心智发育机器人这种新框架下的智能机器人进行针对性设计,使其具有在与外部的环境交互的过程中,自动产生和调整声学单位内部表达模型能力,让智能机器人具有听懂不同语种语言,自动适应不同背景噪声条件的潜力,并为机器人的听说联合打下基础。隐马尔可夫模型作为一种经典的语音表达模型,在语音识别和语音合成等应用中都取得了一定的成果。但是这些成果都是针对特定领域的具体问题进行的,比如特定语言的语音识别,在识别之前必须要针对该语言和应用领域训练大量的声学模型和语言模型,这就导致了当应用场景和使用环境发生改变时,原有模型不适用,导致识别效果急剧下降的问题。本文通过对其进行双隐层扩展,并调整其搜索和训练算法,使其能够达到自主心智发育框架中感知映射的基本要求,无需人为干预,不受环境限定,不针对特定语言和领域,使其能够达到自主心智发育机器人的听觉系统感知映射层次的需要。在此基础上,本文针对自主心智发育机器人语音处理感知映射的问题,提出了解决该问题的方法,并给出了实验系统的设计方法,并对针对系统具体实现时进行了计算性能优化。实验证明,相对于传统方法,本文的在发育框架中的方法对新环境具有更强的适应性能。