【摘 要】
:
目前语音识别技术中运用较成熟的高斯混合-隐马尔科夫模型(Gauss MixedModel and Hidden Markov Model,GMM-HMM),其结构简单,实现方便,小数据下训练速度较快。但随着语料库的增大,及语音识别精度的要求变高,GMM-HMM难以穷举所有的文字关系,导致其对数据的适应性差,识别效果不够好,且传统模型使用解析语音的音素信号序列与对应文字进行训练,需对齐语料语音与文字
论文部分内容阅读
目前语音识别技术中运用较成熟的高斯混合-隐马尔科夫模型(Gauss MixedModel and Hidden Markov Model,GMM-HMM),其结构简单,实现方便,小数据下训练速度较快。但随着语料库的增大,及语音识别精度的要求变高,GMM-HMM难以穷举所有的文字关系,导致其对数据的适应性差,识别效果不够好,且传统模型使用解析语音的音素信号序列与对应文字进行训练,需对齐语料语音与文字标签,以上弊端使GMM-HMM等传统模型难以满足需求。针对上述问题,本文基于卷积长短时记忆深度网络(Convolutional Long stortterm Deep Nerual Network,CLDNN),对传统模型提出了三种改进方案。第一,针对该模型需要对齐输入输出标签,统一对齐输入信号长度,每次输入均完整输入整段语音,只需要整段文字对应的文字标签,并与连接时序分类(Connectionist Temporal Classfication,CTC)结合。第二,针对该模型在应用上述改进后适应性不足的问题,用深层CNN代替浅层CNN,可提取更高级的特征提供给后续层,更适应中文语音识别任务应用场景。第三,针对该模型中双层相关联的LSTM复杂且无法获得下文信息的问题,采用门控循环单元(Gated Recurrent Unit,GRU)简化和加强LSTM层,两层相关联但方向不同的GRU组成的双向GRU(Bi-directional GRU,BiGRU)能在一个时刻同时获得上下文信息,有更强的时序反馈能力。为了验证三种改进方案的有效性,本文以传统的CLDNN模型作为基准,设计实验进行验证,与单独添加三种改进方案后的模型、需要对齐标签的传统GMMHMM模型,以及主流Deep CNN-CTC模型进行对比。实验结果证明了改进的CLDNN-CTC模型在准确性与无需标签对齐上的优越性。最后,本文基于浏览器-服务器架构,应用三种改进后的CLDNN混合模型,构建了中文语音识别系统。其主要功能包括语音识别、纠正词典、识别记录查询等,用户可以在浏览器上使用该系统进行语音识别,并对识别结果进行修改、保存和反馈,还可以添加特殊词到纠正字典,服务器会重新对识别结果查错,并根据纠正词典对错误进行修正,提高识别准确率。为了检验系统实际应用效果,本文对系统的纠正词典及语音识别功能进行了测试。测试结果表明系统的纠正词典以及语音识别功能达到预期效果,具有较好的鲁棒性及泛化能力。
其他文献
随着移动终端的发展,智能手机以它强大的功能吸引了非常庞大的用户,其中Android系统因为其开源、自由的特性深受开发人员的喜爱,占据了很大的市场份额,但这也为安卓恶意软件敞开了大门,所以研究一个有效的恶意软件检测方法非常有必要。目前通过流量分析来检测恶意代码的研究并不多,常见的Android恶意软件识别与分类方法多是基于静态程序分析,通过分析Android软件的API调用、权限等特征来识别和分类。
近年来,微电子和低功耗的技术发展助力了物联网系统的进步,计算密集型应用出现爆炸式增长,如无人驾驶、增强现实等,这要求网络基础设施能够提供更低的时延和更强的计算能力。多项研究表明,边缘计算是必不可少且极具前景的解决方案。边缘计算提出崭新的云-边-端架构,在离终端设备更近的地方部署服务器,从而显著减少了用户时延、网络带宽压力和云计算中心存储计算压力。在边缘计算系统架构中,有许多工作研究了静态边缘机制,
径流时间序列是一种具有代表性的时间序列,对其进行相关分析研究已有很多先例,并取得了不错的结果。然而径流时间序列受到多种复杂因素综合影响,使用传统方法不足以分析其中含有的丰富信息,而且也不能进行高效精准的预测,但是径流又对生产生活具有重大影响。所以,对于提升径流预测精度,需要引入新的预测方法、改善预测流程、提高模型预测能力迫在眉睫。本文在对某流域的河段站点上,选取有代表性的位于该流域上下游的A、B两
在新冠疫情防控期间,人脸识别在病毒流调、无接触通行、目标追踪等方面发挥出重要作用,但此类复杂的自然场景伴有诸多干扰因素,阻碍了识别性能的进一步提升。本文将研究在自然场景下如何改善跨姿态人脸识别任务的表现。该问题面临如下挑战:(1)相比于光照、表情等因素,姿态变化更容易引起自遮挡和外观扭曲等问题,使得原本处于人脸中心区域的显著特征有所缺失,进而发生一种现象:相比于类间差异(即不同对象之间的特征差异)
当前,智能医疗领域由于其旺盛的需求及庞大的发展潜力,成为了人工智能技术重点研发和应用的方向。本文拟针对三维膝关节核磁共振图像中前叉韧带疾病的诊断进行研究,算法框架包括一个前叉韧带病灶区域检测模块,以及一个前叉韧带撕裂程度病理分级模块。在病灶检测模块中,本文建立了以三维卷积核为基础的卷积神经网络,对三维图像中的空间特征和结构特征进行了充分提取;考虑到医疗图像中病灶点尺寸较为固定,因此在训练网络之前先
在云计算不断发展中,软件服务化趋势越加明显,用户通过网络即可使用应用提供的服务,服务慢慢变成应用构建基础,成为云产品的基本形态。FaaS(Function as a Service)以函数为单元提供服务,符合云发展的趋势,并且作为一种新型计算方式成为了云计算未来发展的一个方向。FaaS的出现使用户专心于编写和上传核心的业务代码,由FaaS负责创建和维护相应的计算、存储、网络等资源。用户完成编写并上
根据某篇目标论文寻找相似论文,是科研人员的常见需求,学术论文推荐系统能够帮助科研人员从快速增加的海量学术大数据中过滤提取有效信息。推荐算法是推荐系统的主要研究对象之一,不同的推荐算法适用于不同的数据。学术论文包含多属性特征,既可以使用基于文本特征的推荐算法,也可以根据引文、共引等信息构建同构网络、根据文章、作者、机构等信息构建异构网络,对网络使用基于图特征的推荐算法。现有的论文推荐方法存在许多问题
近年来,随着经济、科技、医疗等的快速发展,在世界范围内,人口数量持续上升。每逢节假日,在旅游景点、购物商场、交通枢纽等公共场所均会出现大量人群聚集的情况,一旦发生异常情况,极容易发生踩踏事故,导致人员伤亡。如果能使用架设在公共场所的监控设备进行实时的人数检测和预警,便能够有效地避免事故的发生。这使得使用监控摄像头进行人群计数成为计算机视觉领域的一个研究热点。此外,人群计数还有更多广泛的应用,例如公
无人机作为一种利用无线电方式控制指挥的无人设备,其控制准确性极大依赖于通信信号的强弱,在复杂场景下容易出现指挥控制困难、设备不兼容、数据传输容易被干扰等情况。因此,需要寻找一种更高效、兼容性更好、更安全的人机交互方法。随着深度学习的发展,出现越来越多的算法来解决在人机交互领域的动作识别问题。但多数方法采用图像+光流的形式进行联合训练,计算成本巨大,且容易受到浅层视觉特征的影响。本文基于姿态检测算法
井间电磁探测是在单井基础上发展起来的一种低频远探测方式,发射端采用磁偶极子源以一定的频率发射电磁波信号,并在相距一百甚至几百米的接收端,对信号进行接收和采集。井间电磁成像是根据接收端获取信号波形的幅度和相位等信息,通过反演迭代得到井间地层电阻率的分布。本文利用积分方程数值模拟的方法对地层电阻率分布进行建模分析,得到井间电磁场响应。然后对各个接收点电磁信号分析研究,分析电阻率变化以及电阻率对比度对电