基于大语料库汉语语音合成系统关键技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:frontwave
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文实现的是一个基于新闻联播语料库的拼接式语音合成系统。 首先对语音合成系统的发展过程和研究现状分别作了回顾和介绍。然后针对拼接式汉语语音合成的研究重点和发展方向,着重完成了新闻联播风格语音数据库、基于决策树的韵律结构预测模型和不定长单元的选音算法等几个方面的工作。 针对大规模语音合成语料库建设周期长的问题,考虑到新闻联播语音清晰、标准,提出从新闻联播语音数据中自动提取数据生成合成语音数据库的思想。并且充分利用实验室的技术和资源,实现了一个有7500个句子组成的新闻联播风格合成语音数据库,对其进行了自动的标注并建立了一个基于决策树聚类的索引系统。 采用主流的基于决策树分类的预测方法实现了韵律结构预测模块。通过从文本中挖掘对韵律特征变化有影响的上下文信息作为决策属性,构建了可以进行韵律边界预测的韵律结构模型。 实现了不定长拼接单元的选择算法。通过构建拼接代价函数,优先选择匹配的韵律词和在实际语流中连续的拼接单元,着重讨论了代价函数中权重设定的问题。既考虑每个单元与目标的匹配,又保证了整个句子的合成效果最优。 在上述基础上,实现了一个基于新闻联播风格语音数据库的拼接式语音合成系统,该系统合成的语音保留了播音员的原始说话风格。
其他文献
自玉米6,000-10,000年前在北美洲由墨西哥一年生大刍草被驯化以来,就伴随人类的生活轨迹和发展延续至今,随着哥伦布的环球旅行而传播到世界各大洲,为人类的生活和生产带来颠覆性的变化。玉米在进化中经历了驯化和改良,在这两个瓶颈阶段玉米基因组分别发生了较大的改变。经过近500年的发展,玉米已成为人类的主要粮食作物之一,其不落粒性对早期人类获得更多的食物有着非常重要的意义,该性状在人类祖先对玉米的驯
政府购买服务是当下注册会计师行业业务拓展的新方向.随着政府购买服务领域不断扩大,注册会计师利用专业特长,积极参与涉企财政专项资金审计,有利于监督资金规范使用,提高资
合成孔径雷达(Synthetic Aperture Radar, SAR)是一种具有全天时、全天候对地观测能力的主动式微波成像雷达,在军事侦察、自然灾害防治和海洋观测等领域得到了广泛的应用。然
学位
丛枝菌根(arbuscular mycorrhiza,AM)共生体是由植物根系与AM真菌通过相互作用方式建立的共生关系体系。营养交换是AM共生体的主要功能,一方面AM真菌从宿主植物中获得碳源,另
MPEG-4 AAC(Advanced Audio Coding)是一种高质量的音频压缩标准,本身具有的压缩比高、重建音质好、编解码过程模块化及声道配置灵活等特点,使它在因特网、无线网以及数字广
在现代工业控制领域中,监测对象和控制设备往往具有很广的地域分散性和对数据的实时监控性,如野外环保数据的采集,城市中供水调度等等,因此我们需要一种分布式的控制系统来完成任
分类转移是利用非经常性损益具体项目的确认和归类变更来进行盈余管理的行为,它能在不改变净利润的情况下调整公司的盈余结构.本文考虑上市公司分类转移盈余管理,以2017年沪
本文首先回顾了声学回声抵消技术的常用算法以及当前研究的趋势与热点,然后对子带自适应滤波器的核心问题——滤波器组的原理及设计进行了深入的分析,在综合考虑系统延时、计
随着国民经济的持续稳定快速增长,我国的房地产业随之迅猛发展,房地产交易日益活跃,权属变更日益频繁,房地产管理的业务量迅速增加,这对房地产管理水平提出了较高的要求。房地产管