面向垃圾语音过滤的快速说话人识别关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:dypplay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着电信网、互联网和广电运营商多元化的结合以及语音传输和交换技术的不断进步,垃圾语音逐渐成为威胁人民群众财产安全和社会安定和谐的重要因素,因此垃圾语音的防护和过滤研究是大势所趋。传统的过滤模型由于无法过滤人为发起和不断变更身份(电话号码或ID)这两种主流的垃圾语音,从而使得垃圾语音的检测成为一个极具挑战性的难题。针对上述问题,可以采用说话人识别技术来解决。说话人识别技术是从主叫人本身去考虑,而不依附于外界固有的因素,因此可以有效地防止垃圾语音发起人通过不断变换身份在通信网络中肆意横行现象的发生。虽然说话人识别技术已经研究的很充分,但是其应用于垃圾语音过滤却很少。鉴于垃圾语音过滤需要近乎实时地识别能力和一定的准确度,目前的说话人识别技术还存在如何为垃圾语音发起人选择合适的识别模型以及如何在垃圾语音过滤要求的说话人数量上实现快速识别的问题。本文比较了不同的识别模型以及快速说话人识别方法,选择将KLSH结合超向量引入到垃圾语音发起人的快速识别中。本文提出基于说话人特征空间分析的快速识别方法,即采用谱聚类和UBM来选择KLSH所需的样本,以提高KLSH搜索的速度和准确度。在谱聚类过程中,重点分析了相似度测量方法,引入KL距离,同时提出一种基于模型信息熵距离进行相似度测量的方法;使用块矩阵简化大规模说话人模型距离计算;改进了基于本征间隙的自动获取聚类数目方法。比较不同超向量的优缺点,选择了GMM超向量作为垃圾语音过滤说话人的识别模型。对KLSH中涉及的核函数以及近似搜索进行了分析选择,从而构成完整的KLSH快速识别系统。实验结果显示,当测试语音达到4s时,平均识别时间为0.105s,识别率可以达到86.4%;而测试长度为10s时,识别率达到96.7%,平均识别时间仅为0.234s,相对于GMM-UBM来说,识别率仅下降了1.9%,但加速比达到了1082.4,从而验证本文提出的算法可以用于大规模垃圾语音过滤。本文最后还验证了基于说话人特征空间分析选择的样本具有一定的稳定性,即在小范围增加数据库说话人的情况下,原有的测试说话人的识别率基本不会发生大的改变。
其他文献
3月末起,悉尼上演的《身在高地》(In the Heights)就宣告已经全部售罄,不是某一场的演出售罄,而是一直上演到4月15日的全部场次悉数售罄——在澳大利亚这个音乐剧市场尚没有形
现代风险社会下,人为风险超越了自然风险,成为主要风险类型。各类人为风险损害给社会造成严重恐慌,而大规模侵权正是风险社会下的极端结果。大规模侵权所固有的损害范围大、
国际机制一直是国际关系理论界的关注对象。空间是国际机制权力集中运行并发挥效果的最佳场所,通过国际机制的空间化运作,制造了国际机制的"参与者"与"旁观者",以及国际机制的"核
随着页岩气开采技术的发展,丙烷催化脱氢逐渐成为提高丙烯产量的有效途径。本文采用一种工业丙烷脱氢催化剂,通过ICP-AES、HAADF-STEM、SEM-EDS、XRD等方法表征催化剂结构,热
冷战结束后,由于恐怖主义分子将攻击的重点转为海上目标,使得海上恐怖事件频繁发生,海上恐怖主义分子的嚣张气焰使得海上反恐势在必行。由于海上运输是国际货物运输中最主要的运
竞争是市场经济的核心,如何培育、提高区域的核心竞争力对区域经济的发展有着深刻的意义。本文根据研究建立区域核心竞争力评价模型和评价指标体系,提出区域核心竞争力评价指标
中风痉挛性瘫痪一直是困扰广大医疗工作者的难题,笔者通过以往临床经验和大量文献查阅,为燔针劫刺治疗中风后痉挛性瘫痪提供有力的理论依据,为进一步临床研究的开展建立良好
有一句话说得好:“人有了物质才能生存;人有了理想才谈得上生活。”可见,对小学生进行理想的重要性。每一位教师都希望小学生将来有一个美好前程,在平时的教育教学中教师要经
老年钙化性心脏瓣膜是一种随增龄而增加的老年人疾病.随着人均寿命的延长和我国老龄化社会的到来,发病人数逐年上升,且其发病隐袭,并发症多,可引起严重的心力衰竭、传导功能
《法兰西内战》是马克思主义创始人马克思为人类历史上第一个出现的无产阶级革命政权——巴黎公社而写的一部光辉著作。在这部著作中,马克思不但深刻总结了这次革命的历史经