自主心智发育机器人的语音感知映射

来源 :复旦大学 | 被引量 : 0次 | 上传用户:uj_mosquito11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说和听是人类最为重要的信息获取和传达的手段。与文字等信息交流方式相比,基于语音的交互是绝大多数人所掌握的最普及、最自然的交互方式,不受使用者的教育水平和专业分类的约束。而随着智能机器人的发展和高性能计算机的普及,若能够以语音作为计算机或者智能机器人与使用者交互界面,将会极大的提升计算机和机器人的易用性、友好性,为人们在信息时代的生活带来巨大的便利。自主心智发育作为一个新兴的理论框架,有潜力解决传统方法难以解决的复杂问题和跨任务问题。因此,将自主心智发育理论框架和已有的高性能方法结合起来,使智能机器人能够具备更强的语音交互能力,是一个值得深入探索的理论方向。传统语音处理方法中需要针对特定领域、语言进行人工分析和设计以及人工干预训练,从而导致这些方法对环境的适应能力以及对新语言新领域的扩展能力较弱,不能达到智能机器人在自然环境中为人类服务的设计要求。本文针对这个问题,以自主心智发育理论框架的任务无关的思想为前提,引入递增计算、在线计算、在位计算等原理,通过对语音处理研究中的经典的隐马尔可夫方法进行改进和扩展,将其融入到自主心智发育理论框架中,提出了双隐层马尔可夫模型,作为听觉感知映射模块的核心模型,为自主心智发育机器人这种新框架下的智能机器人进行针对性设计,使其具有在与外部的环境交互的过程中,自动产生和调整声学单位内部表达模型能力,让智能机器人具有听懂不同语种语言,自动适应不同背景噪声条件的潜力,并为机器人的听说联合打下基础。隐马尔可夫模型作为一种经典的语音表达模型,在语音识别和语音合成等应用中都取得了一定的成果。但是这些成果都是针对特定领域的具体问题进行的,比如特定语言的语音识别,在识别之前必须要针对该语言和应用领域训练大量的声学模型和语言模型,这就导致了当应用场景和使用环境发生改变时,原有模型不适用,导致识别效果急剧下降的问题。本文通过对其进行双隐层扩展,并调整其搜索和训练算法,使其能够达到自主心智发育框架中感知映射的基本要求,无需人为干预,不受环境限定,不针对特定语言和领域,使其能够达到自主心智发育机器人的听觉系统感知映射层次的需要。在此基础上,本文针对自主心智发育机器人语音处理感知映射的问题,提出了解决该问题的方法,并给出了实验系统的设计方法,并对针对系统具体实现时进行了计算性能优化。实验证明,相对于传统方法,本文的在发育框架中的方法对新环境具有更强的适应性能。
其他文献
学位
随着互联网和移动增值业务的迅猛发展,用户规模与市场规模不断扩大,以及国内3G时代的到来,移动增值业务必将成为拉动整个通信行业的新亮点。 SIM(Subscriber Identity Module
随着信息技术的不断发展,嵌入式系统的开发也越来越复杂。有些嵌入式系统实现了TCP/IP协议栈,使一些电子设备接入互联网成为可能;有些嵌入式系统实现了图形用户界面,增强了与
现代企业信息系统的分布性、异构性和自治性特征越来越显著,相应的企业信息资源也分布在异构计算机环境中。企业物理位置的分散性和决策制订过程的分散性特征日益明显,对日常
微机电系统,计算机,通信和人工智能技术的飞速发展及日益成熟,使得无线传感器网络成为当前研究的一个热点。由于传感器节点自身能量非常有限,在实际应用环境中,一个很重要的
随着研究对象的日益复杂化,传统的基于对象精确模型的控制理论与使用确定性的优化算法都遇到了极大的困难。人们从生物进化及仿生学中受到启发,提出许多求解组合优化问题近似
随着数字图像处理技术及高速摄影设备的不断发展,运动图像跟踪技术及系统已被广泛应用到航空飞行测量、机器人导航等领域,这也促进了图像跟踪领域软件技术的相关研究。本文以
本文采用变分(variational)和偏微分方程(partial differential equation,PDE)作为工具来研究低层图像处理中的两个重要问题——图像去噪与图像修复。它们都涉及由退化的噪声
随着Web服务的快速发展,越来越多的Web服务提供商将其开发的Web服务发布到 Internet上供用户使用。于是网络上出现了大量功能相同但服务质量(Quality of Service,QoS)有很大差异
在计算机网络中,多播是指从源节点将同一份信息传送到多个目的节点的技术。多播路由是网络层具备的功能,多播问题的关键在于多播路径的确定。实现多播的一般方式是建立多播树