人机自然交互系统分布式网络环境及双模态语音识别的若干问题

来源 :北京航空航天大学 | 被引量 : 0次 | 上传用户:liongliong513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文主要研究了人机自然交互系统新的基本体系结构和关键技术问题.在人机自然交互中,信息交互内容的传递主要是以语言方式来完成的.在我们承接"863"计划关于语音识别研究的基础上,根据正在进行的广东省自然科学基金的要求,该文进行了听觉-视觉双模态语音识别的研究,因为语言表达实质上至少是双模态的.为此,我们研究并设计和建立了分布式网络环境,人机自然交互主渠道的双模态语音识别的视觉语音特征区域定位、视觉语音特征提取、训练与识别以及双模态信息融合.该文的主要研究成果可概括如下.(1)研究了人机自然交互系统的体系结构理论设计及其中所涉及的核心技术问题,构思了在现有信息处理技术条件下能够为人机自然交互系统提供的各基本组成单元.提出了人机自然交互系统以听觉-视觉双模态语言传递信息交互内容为核心技术的协作机制.(2)为提高人机自然交互系统开发效率并为随后的分布式系统运行提供高效稳定的支持环境,提出并开发了一种分布式网络环境,以之实现对底层网络连接以及具体硬件和软件平台的抽象与隔离,为所有人机自然交互系统中的分布式信息处理单元提供统一的开发、运行环境,实现了人机自然交互系统中可能出现的异构系统运行协作和不同种类编程语言开发的对象间互操作.(3)基于对象请求中介架构的分布式网络环境实施框架,在此框架内,开发了分布工对象配置管理和对象注册等基本系统服务工具.以对象请求中介架构中的多媒体流传输标准为基础,提出了适合人机自然交互系统的实时数据流传输机制设计方案,并实际开发了相关的数据流传输部件.(4)研究了双模态语音识别中视觉语音特征区域定位问题.给出了基于简化的彩色模型的人脸目标区域分割方法.这种图像分割方法训练过程简单,具有较好的光照稳定性,经过实验验证,效果良好.深入研究了基于非线性核函数映射主元分析方法,给出了广义似然距离作为判据来进行定位判别的新方法.通过与传统主元分析和线性区别分析定位方法和基于统计学习理论的支撑向量机方法的实验对比,验证了新方法的定位正确性和有效性.(5)基于汉语普通话语音基本发音单位数量相对于其它种类语言(如英语)较少的特点,归纳了汉语语音发音可能涉及的基本发音现象,总结出了基本发音集合.它包括了针对听觉信息的基于拼音组合规则的有调、无调发音单元集合,以及针对视觉信息的基于口形变化特点的发音分类集合.给出和建立了具有较高灵活性的双模态识别处理机制,在分布式多场景的交互过程中,能够实现实时语法规则切换.这样,一方面降低了识别所需的计算量,另一方面,还能够提高系统识别正确率.
其他文献
"舰船声特征逼真模拟技术"是国家九五预研项目.它是水声对抗领域的一个重要课题.该文主要研究工作包括:对逼真模拟技术进行探讨,提出主被动逼真模拟模型,并进行了计算机仿真
为了提高全民素质,使学生身心得到全面健康的发展,更好地掌握体育的基本知识、技能、技巧,提高课堂教学质量,培养和提高学生的学习兴趣则是首要问题。这些年来在应试教育的导向下
近几年,无线局域网技术发展迅速,其主流技术标准已从802.11发展到802.11a/b/g,接入速率已从最高1Mbps发展到54Mbps,而且技术成熟,成本低廉。但是,目前802.11a/b/g技术只提供
1.健康第一,淡化竞技  体育是学生的必修课,它的主要手段是身体练习,主要目的是增进身体健康。所以体育课的教学内容,就应该具备这些属性,那就是健康、易学、实用、开放。传统的
该文主要对模糊控制中的根本性问题之一——隶属函数的确定问题进行了一些研究.文中提出了两种调整隶属函数的方法:第一种方法根据误差平方和最小准则,利用BP算法的原理,推导
随着移动互联网的快速发展以及多媒体应用需求的不断增加,移动用户对无线通信系统的性能提出了更高的要求。多天线技术能够在不增加功率和频谱带宽的前提下,大幅度地提高无线通
该文主要讨论了几种信道质量度量值以及检测这些度量值的方法,它们主要有协方差矩阵(Covariance Matrix)法,子空间映射(Subspace Mapping)法,维特比解码(Viterbi Decoding)法
在学校体育中,特殊教育学校的体育是重要组成部分,基于听障生的身心发展缺陷,使得在开展体育教学活动的时候必须具有针对性和选择性,在追求体育课程康复功能和缺陷补偿的同时,也促
耐力跑是中学体育教材中的一项重要内容。经常进行耐力跑练习对改善学生内脏器官功能。增强学生体质有积极意义。但是由于练习持续时间长,体能消耗大,加上教师教法简单,练习方法