论文部分内容阅读
随着自然人机交互技术的发展,唇读技术作为一种自动语音识别的辅助手段,在人机交互系统中也越来越被人们广泛应用本文是以计算机网页浏览作为平台,以语音唇读的人机交互方式作为研究对象,重点对唇读识别问题作了深入研究对一个完整的唇读识别系统的四个主要环节:视频图像获取模块唇部定位模块唇动特征提取模块以及唇动识别模块,本文对各个环节存在的问题作了分析,并提出了相应的解决方法针对唇读系统中的涉及到的人脸检测问题,利用YCbCr色彩空间,在传统的肤色模型基础上提出了一种新颖的光强自适应人脸检测算法,在此基础上结合人脸几何特征在人脸范围内标定嘴唇区域实验结果表明本文的方法提高了在光照不均匀情况下的人脸检测和定位效果的稳定性另外唇色在YIQ颜色空间下的色度聚类效果,利用自适应色度滤波器最终分离唇色,克服了个体在肤色和唇色上的差异,得到唇部的精确定位在特征提取环节,通过对各种唇读特征提取方法进行比较,提出将嘴唇形状特征与灰度信息相结合作为后续识别的唇动信息即嘴唇轮廓的形状特征以及基于唇部灰度统计的像素特征,两者均采用标量来减小个体差异并尽可能保留全部唇动信息在识别环节,本文基于隐马尔科夫模型法,针对网页浏览时的人机交互操作特点,结合所得到的唇动信息特征,对网页操作相关的指令集的小样本库设计了一个唇读系统,经试验验证,最终的识别效果较为理想,验证了本文的设计与改进的唇动特征提取的各个环节工作的有效性能