论文部分内容阅读
近几年,随着电信网、互联网和广电运营商多元化的结合以及语音传输和交换技术的不断进步,垃圾语音逐渐成为威胁人民群众财产安全和社会安定和谐的重要因素,因此垃圾语音的防护和过滤研究是大势所趋。传统的过滤模型由于无法过滤人为发起和不断变更身份(电话号码或ID)这两种主流的垃圾语音,从而使得垃圾语音的检测成为一个极具挑战性的难题。针对上述问题,可以采用说话人识别技术来解决。说话人识别技术是从主叫人本身去考虑,而不依附于外界固有的因素,因此可以有效地防止垃圾语音发起人通过不断变换身份在通信网络中肆意横行现象的发生。虽然说话人识别技术已经研究的很充分,但是其应用于垃圾语音过滤却很少。鉴于垃圾语音过滤需要近乎实时地识别能力和一定的准确度,目前的说话人识别技术还存在如何为垃圾语音发起人选择合适的识别模型以及如何在垃圾语音过滤要求的说话人数量上实现快速识别的问题。本文比较了不同的识别模型以及快速说话人识别方法,选择将KLSH结合超向量引入到垃圾语音发起人的快速识别中。本文提出基于说话人特征空间分析的快速识别方法,即采用谱聚类和UBM来选择KLSH所需的样本,以提高KLSH搜索的速度和准确度。在谱聚类过程中,重点分析了相似度测量方法,引入KL距离,同时提出一种基于模型信息熵距离进行相似度测量的方法;使用块矩阵简化大规模说话人模型距离计算;改进了基于本征间隙的自动获取聚类数目方法。比较不同超向量的优缺点,选择了GMM超向量作为垃圾语音过滤说话人的识别模型。对KLSH中涉及的核函数以及近似搜索进行了分析选择,从而构成完整的KLSH快速识别系统。实验结果显示,当测试语音达到4s时,平均识别时间为0.105s,识别率可以达到86.4%;而测试长度为10s时,识别率达到96.7%,平均识别时间仅为0.234s,相对于GMM-UBM来说,识别率仅下降了1.9%,但加速比达到了1082.4,从而验证本文提出的算法可以用于大规模垃圾语音过滤。本文最后还验证了基于说话人特征空间分析选择的样本具有一定的稳定性,即在小范围增加数据库说话人的情况下,原有的测试说话人的识别率基本不会发生大的改变。