基于深度学习的中文唇语识别研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:zhiyuanboxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文唇语识别指的是从视频图像中观察人嘴唇运动的规律,然后识别出对应的汉语内容。但其预测存在较大困难,主要原因在由于人的嘴唇变化具有局限性,并且中文语言内容又比较丰富,这也大大增加了唇语识别难度,使得唇读进展缓慢。从汉语组成上看,汉语不像英语只由字母构成,汉字更加复杂,汉语拼音多达一千多个发音组合,并且汉字个数也超过九千多个,这就使得中文唇语识别更加困难。但如今深度学习技术日渐成熟,应用场景越来越广阔,给了我足够的信心来完成唇语识别这个任务。在本课题中,重点研究了唇语识别的数据处理和唇语识别网络模型。在本文唇语识别的模型中,首先通过分析前人的网络结构,同样将网络模型分解为两个语言模型,视频序列预测拼音序列模型(Pinyin Model,PM)和拼音序列预测汉字序列模型(Chinese Model,CM)。这种分解预测的做法有利于汉字准确率的提升。在PM模型中采用基于CNN-M的卷积神经网络来提取单帧图片中的嘴唇特征,然后使用前溃注意力机制(Feed Forward Attention)来压缩序列长度和提取嘴唇微变化特征。在此基础上再将处理好的特征向量输入编码器(Encoder)中进行编码,然后在解码器(Decoder)解码得到拼音序列。在CM模块中,输入的是PM模块的拼音序列,输出的是汉字序列。在这个模型中,一方面这需要序到序模型解决输入输出长度不能对齐问题,另一方面需要制作与PM模块输出类似的拼音序列训练集。而本文创新提出的同拼音替换(Like Shape Substitute,LSS)规则发挥了巨大作用。同时在PM和CM模块都是用词嵌入层(Embeding Layer)将拼音和汉字类别映射为256维的词向量,这也降低模型的复杂度。在数据方面,本文使用的中文普通话唇语数据库(Chinese Mandarin Lip Reading Dataset,CMLR)的压缩文件大小为38.5GB。并对其进行了预处理,本文首先使用Open CV获取视频帧,再使用Corner Net目标识别算法定位嘴唇。在文末的实验中也体现出了这种数据处理方法的有效性。在CMLR的数据集上的实验表明,本文的PM模块,拼音错误率虽然没有显著下降,但训练时间显著缩短。而在CM模块使用LSS后字错误率显著降低。最终基于序到序模型的中文唇语识别网络(Focus Lip Net)字错误率为28.68%,而原有不带有前馈网络在注意力机制和LSS数据处理方法的模型字错误率在34.01%。
其他文献
由于国内经济增长的放缓,国际贸易摩擦的升级和最终磋商的不确定性,对期货市场整体运行产生了较大的影响。期货市场交投连续的负增长,致使以经纪业务为主要收入来源的期货公司经营受到较大影响。而如何在市场大环境欠佳的情况下激流勇进,在各项业务环节合规的情况下扭转公司经营现状,保持KM期货公司在陕西甚至全国的市场竞争力是十分必要的。本文运用所学的市场营销学理论,从宏观角度分析当前国内期货市场的大环境,根据KM
为了达到节约能源、资源的目标,汽车行业可利用减轻车身质量的方法实现对汽车耗能的约束。目前车身非承重结构主要利用(镀锌)IF钢,为了体现减重效果,铝合金逐渐被引入汽车板生产市场以代替部分传统的(镀锌)IF钢。因此,汽车用材需要解决钢铝连接问题。此外,由于汽车行驶所处的环境较复杂,汽车车身在这些典型环境中的耐腐蚀性成为亟待探讨的问题。有关于汽车车身用IF钢材料及其连接体在典型环境中的腐蚀性能,目前国内
崖洞墓是西汉诸侯王墓中占比较大、形制较为特殊的一类墓葬。通过对崖洞墓平面结构的研究,总结出了回廊、耳室、藏室等几个在崖洞墓平面结构发展中的变化突出的要素,根据这些要素和营建年代对崖洞墓进行了类型学研究,将其划分为二型六式。以永城地区的芒砀山梁王墓地为例研究崖洞墓平面结构的变化趋势,总结出崖洞墓的发展一直围绕着“简化”和“对称”两个核心进行,并得到崖洞墓结构的简化步骤。以徐州地区楚国早期崖洞墓为例,
工程结构中广泛存在着依赖空间位置的随机性,这些不确定性因素对于结构的安全性能和服役状态有着很大的影响,因此,基于随机性有限元分析的结构优化研究引起了广大学者的关注。本文讨论了 Galerrkin多项式的随机场的离散理论数值方法,并结合Kirchhoff-Mindlin板理论,围绕汽车车门结构轻量化的问题,开展随机有限元动力分析,并在此基础上进行了稳健性与可靠性优化设计。论文的主要研究内容包括以下三
随着人类对海洋资源的开发以及自主水下机器人(Autonomous Underwater Vehicles,简称AUVs)执行任务的复杂程度越来越大,人们对AUV提出了更高的性能要求。但AUV受到水下通信和自身携带能源两个因素的制约,需要定期回收AUV进行能源补给和数据传输。无人水面艇(Unmanned Surface Vehicles,简称USVs)作为一种小型无人水面平台,能够连通水下、水上无人
哮喘是一种发生在气道的慢性炎症性疾病。随着发病率和死亡率的增加,哮喘在全球范围内引起了广泛关注,大约60%的患者都患有过敏性哮喘。临床上主要表现为反复发作的喘息、气短、胸闷和咳嗽。哮喘的病因还没有研究清楚,但是有研究表明基因和环境的相互作用引起的表观遗传和转录改变起着非常重要的作用。根据免疫学机制,大致可以将哮喘分为两大类:2型哮喘和非2型哮喘,本课题主要研究的是与2型免疫反应相关的过敏性哮喘。哮
陕甘宁边区工人劳动保障体系的构建是中国共产党局部执政时期的一项重大政治实践活动。论文以抗战时期陕甘宁边区工人劳动保障体系的建立和发展为研究对象,通过梳理和归纳中共中央和陕甘宁边区政府制定颁布的各项劳动保障政策、制度和劳动保障法律法规,进而深入分析研究这些政策、制度、法规等制定出台的历史背景,实施过程、取得的成效以及社会影响和意义等。同时还较为全面地阐述了陕甘宁边区工人劳动保障体系的构建要素和具体内
随着经济的发展和社会的进步,我国群众对于物质需求的变化已经转向精神领域,这就使得作为文化精神满足的电影行业得到了迅速的发展契机,电影票房纪录也不断被突破。从年度票房数据和单片票房数据来看,不断刷新的票房纪录都代表着我国现阶段电影行业的发展黄金期,尤其是目前电影放映技术不断突破限制,影院建设银屏数量增加,这都为电影事业发展提供了助力。可以说,我国电影事业的发展离不开电影公司的支持,尤其是在现阶段影院
随着社会的高速发展和传统化石能源的大量消耗,人类面临严重的能源短缺和环境污染问题。推动新能源汽车产业是缓解能源和环境问题的一种有效途径,因此受到世界范围的广泛关注。新能源汽车的核心部件是储能电池,锂离子电池因具有电压高、能量密度大、输出功率大、自放电低、循环寿命长和倍率性能高等诸多优点,是新能源汽车用动力电池的一种典型代表。但是传统锂离子电池的能量密度还无法满足人们对新能源汽车高续航里程的需求,而
BackgroundHeart conditions are a leading cause of mortality and morbidity worldwide.The burden associated with different heart diseases such as ST-Segment Elevation Myocardial Infarction(STEMI)is dire
学位