数据挖掘及其在汉语文语转换中应用的研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 21次 | 上传用户:hnsushiheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了满足人们实际工作中的需要,数据库中的知识发现近年来逐渐发展起来。本文对数据库中的知识发现处理过程模型进行了研究,并将数据挖掘应用于普通话韵律规则发现,取得了良好的效果。 目前进行的数据挖掘的研究目前所进行的关于KDD的研究,大多只着眼于对学习算法的研究,而忽视了整个处理过程的研究。基于上述因素,本文提出了支持多数据集多学习目标的KDD处理过程模型,以使得KDD更适合实际工作的需要并使得最终用户和数据挖掘人员的之间的影响尽量小,提高学习效率。 目前的合成语音的自然度和连续度不够高,影响合成语音质量不高的一个很重要因素在于目前所使用的韵律控制规则不够完善。本文提出在基音同步叠加基础上利用数据挖掘进行汉语韵律规则的学习,并在汉语两字词和句子的韵律规则学习中得到应用,收到了良好的效果,目前国内外有关语音合成的文献中未见同类成果的报道。 本文将两字词中的音节韵律规则看做是对孤立音节和词中发音的一种映射关系的描述,通过训练神经网络获取基频和时长的映射关系,利用训练后得到的网络直接计算出所需的基频以用于合成,通过实验,得到较好的学习效果并且利用神经网络生成的基频变化结果完全符合公认的声调变化规律。 为了学习句子中音节的韵律变化规律,本文首先通过聚类分析得出典型的句中音节基频模式,这些基频模式完全可以对应于目前通用的声调曲线。在基频模式基础上,本文将训练数据中的基频变换到高层次描述并综合采用多种数据挖掘方法进行韵律规则的学习,取得了较好的实验结果。通过学习所获取的变化规则完全包容了变调规则,而且产生的新规则对声调变化的研究也将起到一定的启发作用。 在上述工作的基础上,本文开发出基于数据挖掘的普通话文语转换的研究原型系统DMTalker,该系统利用数据挖掘进行韵律规则学习,并将学习得到的韵律规则用于文语转换中。
其他文献
1 前言如今把隧道窑作为主要烧砖窑炉的砖瓦厂越来越多,选择什么规格的窑型。成为准备上隧道窑的砖厂关心的话题。就目前而言,隧道窑的主要规格(按窑室的宽度划分)大致有:4.5m以上
随着计算机技术的广泛应用,软件项目的规模随之加大,项目管理者意识到应严格要求软件过程的规范性.代码规范作为软件规范开发的基础,由程序风格、命名规范、注释规范、程序健
介绍粉煤灰空心砖人工干燥原理,干燥介质温度和湿度对坯体干燥的作用、热工参数的采用、干燥室风量与热量的测定、零压点的控制和室内温度、湿度曲线及坯体脱水、收缩曲线的
为适应经济全球化、科技国际化和加入世贸组织的新形势,我国正在更大范围.更广领域、更高层次上参与国际经济技术合作和竞争,拓展经济发展空间,全面提高对外开放水平。为了方便广
对于经常与电脑打交道的人们来说,经常会因为过度使用鼠标,而引起手腕酸痛,这时你不妨握握拳头,就会舒服很多。
高斯定理是描述静电场性质的两个重要定理之一,是普通物理教学中的重点,又是教学的难点.对于应用D的高斯定理求场强问题,现行教科书的重点都集中在自由电荷均匀分布的情况下
本试验设8个处理组,每组8头猪,各处理分别为本课题研制的3个复方中草药添加剂组,以及市售的益生素、复合酶、低聚糖和柠檬酸4个绿色添加剂组替代抗生素,以喹乙醇为对照组,对
在石膏制品机械及其产品中,有些名词、术语和名称多年来,由于方言、俚语和口头语的使用比较多,听起来不合理,改起来又麻烦.然而,随着社会的进步、行业的发展,新技术、新产品
鸡西北能华厦有限公司的主体是一个年产6000万标砖的烧结煤矸石多孔砖厂,于2005年9月3日动工,2006年6月6日点火试生产。其原料是鸡西矿业集团矸石热电厂废弃低热值矸石和矸石炉
1 《墙体材料术语》GB/T18968-2003中砖的定义:其长度不超过365mm,宽度不超过240mm,高度不超过115mm。多孔砖定义为:孔洞率等于或大于25%,孔的尺寸小而数量多的砖。常用于承重部位。