【摘 要】
:
数据驱动的时域滤波是一类很有前景的提高语音识别系统鲁棒性的方法,线性区间划分(LDA)和主成分分析(PCA)已经被成功地应用.本文提出了一种新的采用独立成分分析(ICA)的数据驱动时域滤波技术.独立成分分析是一种子信号处理方法,它能将线性混和的统计独立信号进行分离.本文建议的算法可以有效地提取出语音信号的调制谱中1至16Hz的感知频率成分.通过语音识别实验表明,相对于LDA和PCA,基于ICA的时
论文部分内容阅读
数据驱动的时域滤波是一类很有前景的提高语音识别系统鲁棒性的方法,线性区间划分(LDA)和主成分分析(PCA)已经被成功地应用.本文提出了一种新的采用独立成分分析(ICA)的数据驱动时域滤波技术.独立成分分析是一种子信号处理方法,它能将线性混和的统计独立信号进行分离.本文建议的算法可以有效地提取出语音信号的调制谱中1至16Hz的感知频率成分.通过语音识别实验表明,相对于LDA和PCA,基于ICA的时域滤波技术能够在噪声条件下取得更好的识别性能.
其他文献
本文引用了统计学中的eat-squared的概念来分析周围韵律环境对声韵母时长影响程度的大小,以此确定有主要影响作用的因素.文章在对20多万音节中声韵母时长进行统计的基础上对汉语时长的分布以及单元周围环境对时长的影响重要性进行统计,对较为重要的属性进行了详细分析,得到了建立准确时长模型所需的可靠信息.
本文实现了一种基于IAIF逆滤波和LF声源建模的高音质LPC语音合成器,提出了新的高频补偿方法,解决了以往此类合成器高频失真严重的问题.为声音品质调整、感情色彩语音合成等方向研究奠定了基础.
语音资料库的制作,无论对于言语识别还是言语合成的研究来说,都是极为重要的部分.在言语合成方面,基于大语料库的合成系统取得了很好的效果,成为目前合成技术的主流.本文概述了合成用语料库的制作需求,详细讨论了合成用语料库制作的需要注意到的方方面面,并说明了一个合成用语料库的制作过程.
在建立限定领域的语言模型时,很难获得足够的文本语料.为了防止语音识别系统只能识别训练集内的内容,使得语言模型具有更好的扩展性能,本文结合基于规则的方法和基于词类的语言模型的方法,将语法规则解析成有限状态网络,从网络中遍历词间联接,以扩展训练语料的不足,以此建立限定领域的语言模型,使得语言模型在非常有限的训练语料情况下,能够覆盖更多的语言现象.
本文提出了一种使用浊音信息表示语言特征,通过计算其上的Mel频率倒谱系数(MFCC),"正向"和"反向"综合使用隐马尔可夫模型(HMM)进行语言识别的方法.对新疆维语和广东粤语的电话录音进行识别实验,平均正确识别率达到89﹪以上.
语音数据库是语音识别技术研究的基础.当语音技术的研究进入实用化阶段时,对语音库的建设也提出了更高的要求,因此,建立大规模、高质量的电话语音数据库是这一领域的关键性问题.本数据库是国家863支持的项目,采用自动方式收集长达数据百小时的电话语音数据,力争更全面地体现不同电话信道、不同地方口音、不同年龄段说话人的特点.本文详细讨论了自动电话数据采集系统的构建、录音文本的设计、数据采集方案的设定、数据的后
对取自汉语单人10000句话的录音语料分析得到:①与汉语音节音高变化的相关因素是多方面的,并且具有很大的随机性;②汉语双音节词的音高组合结构相当稳定,但它在基频轴上的位置和音高域与基在韵律短语中的前后位置,重音等级有关;③在短语水平上,呈现出明显的音高下倾趋势.本文除报告这些观察结果外,同时讨论汉语合成系统中音高控制的策略.
本文描述了用人神经网络技术来标注汉语语音合成中的音节(字)和韵律词两级重音,提取音节和韵律词的特征矢量时主要考虑了韵律特征是有层次性的特点,针对音节和韵律词的特征空间设计并分别训练了一个神经网络,实验证明对音节重音的标注正确率达到了83.08﹪,对韵律词重音的标注正确率达到了78.24﹪.
本文论述了如何利用现有技术对语音的音色进行变换,使源说话人的声音通过这种变化听起来像目标说话人发出的声音.我们对语音变换中的声学特征提取、特征对齐和特征分布建模的各种方法进行了论述.对基于混合高斯模型的均方误差最小准则下的连续语音变换方法进行了详细分析.并且讨论和比较了最新的研究结果.
本文研究了一种简单有效的自适应语音增强方法:将语音粗略分割成元音与辅音段,在时域和频域分别进行处理.对于具有短时周期性的元音,采用时域平滑技术可以取得很好的降噪效果;对于具有随机特征的辅音,频域谱减法降噪简单可靠;根据可靠的时域降噪结果自适应地实时估计噪声谱,大大提高了谱减法的性能和整套降噪系统的性能.此外,本文还研究了一种利用子波整体信息的波形平滑技术,进一步提高了性能和可靠性.实验中,我们在N