论文部分内容阅读
说话人识别,又称“声纹识别”,它通过从说话人的语音中抽取、对比说话人的个性特征从而识别出说话人的身份。该项技术自60年代开始发展,近年来已日趋成熟。其中单说话人识别技术,即对于识别语音中只含有一名说话人语音的识别技术,已经开始商业化并取得了可观的经济效益。在安全领域,说话人识别技术主要可应用于身份认证与安全控制;在司法领域,该技术主要应用于犯罪嫌疑人的追踪与身份确认,并可用于司法审判的技术证据;在服务业,该技术可以辅助商家辨认顾客身份,提供个性化的定制服务。目前,多说话人的识别已进入研究领域。
本文着重研究电话语音的多说话人识别方法。通过使用滑动窗技术,利用说话人模型对各语音窗打分,基于置信度准则为每个说话人模型选取来自其所代表的说话人的语音窗,并丢弃影响识别的混有两名说话人语音的窗。用说话人模型对其所选取的语音窗打分,通过综合各模型打分得出最终的识别结果。
论文研究了基于模型打分的置信度准则,提出了“最小语音长度限制”与“非首选模型打分抑制”的策略。与基线系统的对比实验表明,本文提出的方法达到了91.30%的首选正确率,比基线系统的性能提高了14.96%。