基于平移不变字典的语音唇动一致性判决方法

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户：sk_chin

【摘要】

：

针对传统语音唇动分析模型容易忽略唇动帧间时变信息从而影响一致性判别结果的问题,提出一种基于平移不变学习字典的一致性判决方法.该方法将平移不变稀疏表示引入语音唇动一

【作者】

：

贺前华朱铮宇奉小慧

【机构】

：

华南理工大学电子与信息学院,

【出处】

：

华中科技大学学报(自然科学版)

【发表日期】

：

2015年10期

【关键词】

：

平移不变稀疏表示一致性分析字典学习音视频处理稀疏编码数据映射音频信号统计类一致性检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统语音唇动分析模型容易忽略唇动帧间时变信息从而影响一致性判别结果的问题,提出一种基于平移不变学习字典的一致性判决方法.该方法将平移不变稀疏表示引入语音唇动一致性分析,通过音视频联合字典学习算法训练出时空平移不变的音视频字典,并采用新的数据映射方式对学习算法中的稀疏编码部分进行改进;利用字典中的音视频联合原子作为描述不同音节或词语发音时音频与唇形同步变化关系的模板,最后根据这种模板制定出语音唇动一致性评分判决准则.对四类音视频不一致数据的实验结果表明:本方法与传统统计类方法相比,对于少音节语料,总体等错误率(EER)平均从23.6%下降到11.3%;对于多音节语句,总体EER平均从22.1%下降到15.9%. Aiming at the problem that traditional lip analysis model can ignore the time-varying information of lip-motion frames and thus affect the consistency of discriminant results, a consistent decision method based on translation invariant learning dictionary is proposed. The proposed method invokes translation invariant sparse representation into speech Lip-motion consistency analysis, through audio and video combined with dictionary learning algorithm training time and frequency translation of the same audio and video dictionary, and the use of new data mapping methods to improve the sparse coding part of the learning algorithm; the dictionary of audio and video combined with atoms As a template to describe the relationship between audio and lip synchronization when different syllables or words are pronounced, finally, a judgment criterion of speech lip consistency score is established according to this template.Experimental results on four kinds of audio and video inconsistent data show that this method is similar to the traditional Compared with the statistics method, the overall error rate (EER) decreased from 23.6% to 11.3% for the syllable corpus, while the overall EER decreased from 22.1% to 15.9% for the multi-syllable sentence on average.

其他文献

中铁物总电子商务技术有限公司

中铁物总电子商务技术有限公司隶属于中国铁路物资股份有限公司(简称“中国铁物”)。中国铁物是由中国铁路物资总公司整体重组改制设立的股份公司,是国务院国资委管理的大型

期刊

电子商务技术中国铁路物资企业信息门户开发模式标准组件产品化项目型软件开发平台注册资金

肝硬化心脏影像学、电生理及血生化分析

目的:　　研究肝硬化患者心脏方面相关的电生理、影像（包括胸片及心超），以及血生化的变化，并综合上述指标，提示其合并症之一，即肝硬化性心肌病的存在，讨论相关检查手段的意义，加强对

学位

肝硬化心脏功能电生理影像学特征血生化指标

阅读教学中小学语文核心素养的培养

小学语文教师在培养学生核心素养的过程中,阅读教学的开展是一个非常重要的途径,阅读在语文学习中占据很高的地位,学生在文章书籍阅读的过程中会吸取很多知识,获得道德情感的

期刊

阅读教学小学语文核心素养培养

从《围城》看民国时期婚恋文化的变迁

摘要：《围城》为读者讲述了民国时期的故事，其中，重点描述了民国时期的婚恋文化。基于此，本文根据小说《围城》的故事内容，从传统的婚恋观以及自由婚恋观的兴起两方面，分析了民国时期婚姻风俗与婚姻理念的变化，并提出了婚恋文化的转型后，对社会发展产生的影响。　　关键词：《围城》；民国时期；婚恋文化　　[中图分类号]：I206 [文献标识码]：A　　[文章编号]：1002-2139（2017）-32-0-0

期刊

《围城》民国时期婚恋文化

文学伦理学视角下文学基本功能和核心价值探究

摘要：文学的基本功能和核心价值一直是一个值得探讨的问题。目前通行的观念是：审美是文学的基本功能，审美价值是文学的核心价值。文学的基本功能和核心价值究竟是不是审美，如果不是，那又是什么，这一问题需要学者们深入进行深入探讨。探讨这一问题首先要明确文学功能涵义，文学的功能指的是文学的内在功能，与文学的关系是所有关系。审美是一种主观心理活動，文学审美只能算是文学的外部作用机制，从这一点来看，审美不可能成

期刊

文学伦理学文学基本功能核心价值

提升语文教学质量之探究

语文学习不仅仅是为语言交流打基础的,更是学习其它科目的基础,为此学习语文是极为重要的.语文课的教学中,教师要学会用灵活多样的教学方法进行施教,巧妙的开启宝库,引导学生

期刊

语文教学探索激发兴趣增强意识

浅析殷健灵的智慧书写

摘要：在普遍追求深刻，追求思想的时代，殷健灵并运用富有诗意的语言创造出一个个温暖的心灵世界。在殷健灵看来，成长可以充满苦难，可以时时受挫，但对于少年主人公而言，成长的氛围应是温情的。　　关键词：殷健灵；诗意；温情；心灵世界　　作者简介：杨润，东北师范大学文学院现当代文学研究生。　　[中图分类号]：I206 [文献标识码]：A　　[文章编号]：1002-2139（2017）-32-0-01　　上个

期刊

殷健灵诗意温情心灵世界

AI驱动新基建时代，智能计算承载创新动能

随着技术的进步，AI应用落地速度越来越快。小到网络购物的喜好推荐，大到企业各种RPA流程。对于数字化进程较高的企业来说，AI更是几乎成为基础设施和基础技术储备。　　对于爱奇艺来说，AI已经成为爱奇艺赋能全娱场景的基础。在创作阶段，AI可以帮助爱奇艺更好地挑选剧本、挑选角色，以及预测IP将来的流量。选定IP之后，在进行IP的生产时，从录制到镜头挑选到视频剪辑等等各个方面，AI都能加速创作的速度，减少

期刊

黑燕麦的情歌（组诗）

这一天　　这一天，我不停地赶路　　赶往江南，赶往虚构的水街　　一场相遇，绝对不关风月，它们　　只与泥土里的燕麦　　风雪、落日，和一戳即破的心事　　那致命的盐粒　　息息相关　　醉酒　　酒喝三碗，酒歌唱了三遍　　那一滴忧伤的泪，溅起的高山流水　　从漆黑的夜里出逃，不去漠北　　亦不去江南，只去往眼中深不可测的古井　　打捞丢失的岁月　　以及失传千年的姓氏，和　　永难忘却的故乡　　虚拟的场景　　黑土地幽深，

期刊

燕麦情歌

基于“非指导性教学”理念的小学语文优化教学

“非指导性教学”强调的是对学生主体意识的发挥,以学生的情感需求为关键要素,致力于在课堂上形成融洽和谐的学习氛围.在新时期的教育工作开展背景下,非指导性教学的升级与应

期刊

非指导性教学小学语文教学优化

基于平移不变字典的语音唇动一致性判决方法

其他学术论文