【摘 要】
:
本文统计了大量正确标音的语料,结果表明220个多音字的出现频度占总频度的99﹪以上.本文针对这220个多音字,提出了一种新的基于规则的多音字自动注音的方法.该方法首先对语句中
【机 构】
:
清华大学计算机科学与技术系(北京)
论文部分内容阅读
本文统计了大量正确标音的语料,结果表明220个多音字的出现频度占总频度的99﹪以上.本文针对这220个多音字,提出了一种新的基于规则的多音字自动注音的方法.该方法首先对语句中的多音字进行预分类,然后基于8项特征提取规则,并进行自动注音.文中研究分析了读音与词性的关系,提出了韵律功能词性的概念,改善了繁琐的词性信息.文末给出了含有韵律功能词性的多音字处理方法的测试结果,并与其他方法进行比较,实践表明,该方法提高了多音字注意的正确率.
其他文献
Web页面中"噪音"是影响基于网页内容的Web分类质量的一个重要因素,快速而准确的识别网页的主题内容是提高分类准确率的关键技术之一.针对HTML的半结构化特征和DOM缺乏位置信
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成.如何从动态网页中抽取信息有着十分重要的意义,因为它们通常是一个网站最为主要
本文简单介绍可编程控制器的功能和特点及Porfibus现场总线技术,着重介绍了PLC技术在时序控制系统中的应用,该系统具有分散控制、集中监控、下位机的PLC与上位机的通信功能.
构造了一种新的Hybrid混沌映射,提出了混沌扩频序列的产生方法,在此基础上给出了扩频序列的优选准则和混沌序列的优选方法,并通过数值仿真分析了此类扩频序列的自/互相关特性
本文实现的中文命名实体识别系统采用了隐马尔可夫模型(Hidden Markov Model,HMM)与自动规则提取相结合的方法.整个识别过程可以分为两个步骤,首先使用HMM识别,然后再利用自
目前,CC-Link现场总线在工控领域应用比较广泛.在它的应用过程中,最重要的工作是进行控制系统的通信初始化注册.CC-Link通信初始化注册方法有两种,一种是编程,即编制顺控程序
简述了压痕尺寸图像测量系统的构成.在分析压痕图像特点的基础上,提出了一种实用的图像分割算法,实现了对压痕尺寸的精确测量.实验证明,该算法满足对布氏硬度计压痕直径的测
在进行文本的主题分析和文本的内容分析的研究中,"领域知识"是不可或缺的基础知识.而"领域知识库"是系统的管理"领域知识"的有效途径.于是,构建领域知识库的研究工作具有极其
本文主要介绍一种基于WordNet的英语词语相似度的实现方法,我们从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度,我们的向量包括三方面:(1)WordNet的同义词词
本文采用决策树学习方法来完成中文名词短语的指代消解.在人民日报标注语料的基础上进行名词短语识别,并构建候选指代名词短语对的特征向量,然后采用C5.0决策树算法训练得到