【摘 要】
:
互联网上音频数据量的激增,使音频内容拷贝检测 渐成为热点。本文选取频带能量差异做特征设计了一个基于指纹索引的快速音频拷贝检测系统。系统召回率最差的情况有88.72%,准确率达到100%,对平均待检音频80秒的数据,系统平均检索速率为31秒。实验表明,本系统在几种常用音频变换下依然能取得较好的检出效果,本系统的索引机制与匹配算法也使时间开销大大降低。
【机 构】
:
普适计算教育部重点实验室 清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系,北京 100084
论文部分内容阅读
互联网上音频数据量的激增,使音频内容拷贝检测 渐成为热点。本文选取频带能量差异做特征设计了一个基于指纹索引的快速音频拷贝检测系统。系统召回率最差的情况有88.72%,准确率达到100%,对平均待检音频80秒的数据,系统平均检索速率为31秒。实验表明,本系统在几种常用音频变换下依然能取得较好的检出效果,本系统的索引机制与匹配算法也使时间开销大大降低。
其他文献
随着我国广播电视事业的快速发展,对广播电视进行广告监测的重要性越来越突出。本文提出了一种基于音频语谱图像识别的广告检索方法,该方法把每个广告片段的音频转换成语谱图像,并通过boosting训练算法,从中提取可区分的、适合索引的特征以训练分类器。检索时,通过特征对齐,采用基于EM的迭代方法识别最匹配的广告。 实验结果表明,该方法可以快速准确地从广播电视中检索到广告,而且具有很好的鲁棒性,基于该方法开
机读音标SAMPA(Speech Assessment Methods Phonetic Alphabet)即计算机可读的音标,用计算机可读的ASCII字符表示语言的发音。本文提出了一种藏语的SAMPA标注的设计方案SAMPA-T(Tibetan),列出了藏语的辅音和元音对应的国际音标与SAMPA-T标注,并实现了面向SAMPA-T的藏语字音转换,可应用于藏语语音合成等藏语语音信息处理中。
为获得具有通用性的声调处理系统,本文运用计算语言学方法,基于管辖音系学理论提出跨语言声调处理算法。经分析天津话和丹阳话变调算法结果,可得出结论:基于管辖音系学的变调自动化处理模型具有跨方言算法内核 一致性、代码精简性以及可移植性等特点。这些特点均源于该音系学理论特有的声调表征模式以及声调音系过程解释机制。
本研究从音高,时长和音强三个方面,分析了100首五言绝句和七言绝句在朗读中表现出的声学特点。绝句内部 主要包含联间边界,句间边界和句内边界三个不同层级的韵律边界。通过对绝句声学特征的统计分析表明,随着绝句内部韵律层级的提高,边界处音高低音点的重置程度增大,边界前音节时长缩短,而无声段长度变长;两种绝句各句音高低音点和高音点都有各自的下倾语调,并会以联为单位收紧音域。两种绝句各句内音节强度值逐渐减小
研究表明,基于隐马尔可夫模型的语音合成(HMM-based speech synthesis)中结合整体方差(Global variance, GV)模型的参数生成方法对于克服生成语音参数中的过平滑现象有较好的作用。然而该GV模型中并没有考虑到各阶语音参数之间的相关性。对于线谱对(LSP)这样的参数,相邻阶LSP参数之间的差分对于频谱包络有很强的影响。鉴 本文提出了建立在相邻阶LSP差分上的GV
本文提出了一种基于声学模型Viterbi解码的中文合成音库韵律短语边界自动标注方法,以降低大语料库单元 拼接合成系统的构建成本。该方法分为模型训练和韵律标注两阶段:模型训练阶段得到频谱、基频和音素时长的上下文相关隐Markov模型(hidden Markov model, HMM);标注阶段借助训练得到的模型采用Viterbi解码完成韵律短语自动标注。实验结果表明:该方法进行韵律短语边界标注时的F
本文选取紧邻北京的河北高碑店朝阳中学的中小学生为调查对象,经问卷调查数据分析,初步总结得出高碑店市义务教育阶段中小学生的语音生态因素,主要包括高碑店方言常用字词表、普通话语音环境和普通话语音与方音的相关性。通过对高碑店市中小学生语音生态调查,不仅在义务教育阶段的中小学生的语音习得研究上具有一定的学术意义,而且定针对方言区义务教育阶段的中小学生的推普策略和普通话教学法也具有一定的参考意义。
本文针对传统数字版权管理系统中存在的由于密钥容易丢失和遗忘而造成用户使用不便、非法用户对密钥的窃取和伪造、以及合法用户主动泄漏密钥造成信息提供商在知识版权方面权益的丧失等问题,构建了一种针对对等网络(Peer-to-Peer,P2P)数字版权管理的声纹辅助认证系统。该系统采用随机数字文本提示的方式,进行说话人确认以及基于语音内容的信息确认,并采用SVM模型进行融合判决;针对说话人语音内容不匹配时存
基于加权有限状态转换器的语音解码技术是当前语音识别领域的研究热点之一。利用加权有限状态转换器的相 关理论和算法,可以构建语音静态解码网络,空转移去除 (ε-Removal)是其中重要的一环。传统的ε-Removal 算法并不能保证网络规模最小,这会增加后续语音解码的空间和时间复杂度。本文对传统算法进行了分析,在此基础上提出了“拓扑相关的ε-Removal算法”,根据网络局部拓扑结构选择ε-Remo
作文是汉语考试的必考项目,寻找简单有效的作文自动评分算法无疑可以很大地提高作文阅卷的效率。本文在词汇等级方面研究作文自动评分技术,包括采用现成的分级词汇表方法,以及两种本文提出的词汇等级训练算法,实验结果表明,基于现成的分级词汇表法的作文打分结果与人工打分相关性较差,本文提出的两种词汇等级训练算法打分结果的相关性指标分别接近人的水平和超过人的水平。这表明,作文的用词随着作文题目的变化而变化,固定的